初创公司Patronus AI的研究人员发现,大型语言模型在分析美国证券交易委员会(SEC)备案文件时经常无法正确回答问题。即使是表现最佳的OpenAI的GPT-4-Turbo,在面对几乎整个备案文件和相关问题时,也仅有79%的问题回答正确。Patronus AI的创始人表示,这些大型语言模型有时会拒绝回答问题,或者会产生与备案文件中不存在的数字和事实有关的“幻觉”。
这些发现揭示了大型语言模型在金融等受监管行业应用的一些挑战。尽管这些公司希望将先进技术应用于客户服务或研究,但AI模型在处理此类任务时面临困难。
快速提取重要数字并对财务陈述进行分析被认为是聊天机器人最有前景的应用之一。然而,大型语言模型在处理此类任务时表现不佳。过去的一年里,许多公司和研究人员一直在尝试开发利用生成式AI处理财经数据的工具。例如,彭博社开发了自己的金融数据AI模型,商学院教授研究了ChatGPT是否可以解析财经头条新闻,摩根大通正在开发一个基于AI的自动投资工具。
然而,将大型语言模型应用于实际产品面临许多挑战。这些模型是非确定性的,不能保证每次给出相同的输出。这意味着公司需要进行更严格的测试,以确保模型的运行正确,并且能够提供可靠的结果。
Patronus AI的联合创始人表示,他们已经开发了一套自动化测试软件,旨在确保大型语言模型在处理SEC备案文件等任务时能够提供准确和可靠的结果。该公司已经从Lightspeed Venture Partners获得了种子资金,并且正在与多家公司合作,以进一步改进这些模型的应用。
初创公司Patronus AI的研究人员还对四个语言模型进行了测试:OpenAI的GPT-4和GPT-4-Turbo、Anthropic的Claude2和Meta的Llama2。他们使用了一个包含150个问题的子集进行测试,这些问题来自主要上市公司的SEC备案文件。他们还测试了不同的配置和提示方式,例如使用“Oracle”模式时提供确切的源文本位置信息。
测试结果显示,GPT-4-Turbo在闭卷测试中表现不佳,未能回答88%的问题。但在提供底层备案文件的访问权限时,其性能有了显著改善。在“Oracle”模式下,GPT-4-Turbo能够正确回答85%的问题,但仍有15%的回答错误。
Meta开发的开源AI模型Llama2产生了许多错误的“幻觉”答案,错误回答的比例高达70%。而Anthropic的Claude2在提供“长上下文”的情况下表现良好,能够回答75%的问题,但有21%的回答错误。GPT-4-Turbo在长上下文测试中表现也不错,能够回答79%的问题,但有17%的回答错误。
尽管大型语言模型在处理某些任务时表现不佳,但Patronus AI的创始人在测试后对模型的表现感到惊讶。他们计划继续改进他们的自动化测试软件,并与更多的公司合作以进一步优化这些模型的应用。