谷歌推出新技术：利用搜索引擎大幅提升ChatGPT等模型的准确率

AI行业资讯 1年前 (2023) AI导航网

由于Transformer的出现，ChatGPT等大语言模型在自然语言处理任务上的表现得到了显著提升。然而，生成的内容仍然存在错误或过时的信息，同时缺乏评估体系来验证内容的真实性。

为了全面评估大语言模型对世界变化的适应能力和生成内容的准确性，谷歌 AI研究团队发布了一篇名为《利用搜索引擎知识增强大语言模型的准确性》的论文。在论文中，他们提出了一种名为FRESHPROMPT的方法，通过从搜索引擎获取实时信息来显著提升ChatGPT、Bard等大型语言模型的准确性。

为了评估大语言模型的准确性，研究人员构建了一个新的问答基准测试集FRESHQA，其中包含了600个各类真实问题，涵盖了从“永不改变”到“变化频繁”不同频率的答案变化类别。

此外，他们还设计了严格模式和宽松模式两种评估方法。在严格模式下，要求回答中的所有信息都必须准确且最新；而在宽松模式下，仅评估主要回答的正确性。

实验结果显示，FRESHPROMPT方法明显提高了解析型大语言模型在FRESHQA基准测试集上的准确性。例如，采用GPT-4模型并用FRESHPROMPT辅助后，其准确性比原始GPT-4提高了47%。

与单纯扩大模型参数相比，融合搜索引擎的方法更加灵活，可以作为已有模型的动态外部知识源。实验结果也证明了FRESHPROMPT在提高大语言模型在需要实时知识的问题上的准确率方面具有明显优势。

此外，论文还公开了FRESHPROMPT方法的详细架构和实现流程。这项技术的开源地址为：https://github.com/fresh大语言模型s/freshqa （正在筹备中，将很快开源）。我们相信这个开源项目将为大语言模型的研究和应用带来更多启发和帮助。
为了全面评估大型语言模型如何适应世界的变化并提高其内容的准确性，谷歌的AI研究团队构建了一个名为FRESHQA的基准测试集。该测试集包含了600个各种主题、难度级别的真实问题，并根据答案的变化频率分为四类：永不改变、变化缓慢、变化频繁以及包含错误前提的问题。

对于每个问题，研究人员都进行了详尽的分类和评估。他们提出了两种评估模式，严格模式和宽松模式。在严格模式下，要求回答中的所有信息都必须准确且最新；而在宽松模式下，仅对主要答案的正确性进行评估。这两种模式为评估语言模型的事实性提供了更为全面和细致的方法。

研究人员还比较了不同参数的大型语言模型，包括GPT-3、GPT-4和ChatGPT等，发现所有模型在处理需要实时知识的问题上都表现不佳，尤其是那些频繁变化和包含错误前提的问题。这说明当前的大型语言模型在适应世界变化方面仍存在一定的局限性。

为了提高大型语言模型的内容准确性，谷歌提出了一种名为FRESHPROMPT的方法。该方法的核心思想是从搜索引擎中检索问题相关的实时信息。具体来说，对于给定的问题，FRESHPROMPT将其作为关键词在谷歌搜索引擎中进行查询，获取包括答案框、网页结果和其他用户提问等多种类型的搜索结果。

此外，FRESHPROMPT使用了一种稀疏训练的方法，将检索到的各种证据以统一格式整合到大型语言模型的输入提示中。这种方法不仅提高了模型对实时信息的理解能力，而且通过提供示范说明了如何综合这些证据得出正确回答。这些训练让大型语言模型学会了如何理解任务并整合来自不同来源的信息，以推导出最新和准确的答案。

谷歌表示，FRESHPROMPT对提高大型语言模型的动态适应能力具有重要意义，这也是大型语言模型未来技术研究的一个重要方向。通过利用搜索引擎的强大功能，我们可以为这些模型提供更加准确和实时的事实信息，从而使其在处理现实世界的问题时更加可靠。