近期,AI领域中流行的大语言模型(如GPT-3和Llama)在处理一些简单逻辑问题时出现了准确率为零的情况。此现象被称为「逆转诅咒」,引发了广泛讨论。
研究人员发现,无论大模型的体量大小或问的问题类型如何,它们的准确率都接近于零,且无法预测这种情况的发生。过去,我们认为当AI发展到预训练大模型阶段时,它们应该具备一定的逻辑思维能力,然而这次的结果却让人们感到困惑。
一个图例中所展示的情况是:对于GPT-4模型,当输入是「A 是 B」形式的知识时,它可以正确回答「B 是谁」的问题。但是当输入变成「B 是谁」的形式时,该模型却无法检索到正确的答案。「逆转诅咒」现象表明,模型训练时不能自动推断出「B 是 A」这样的逆向关系。
研究还表明,目前热门的自回归语言模型无法以一种泛化的方式进行推理。例如,在训练集中如果包含了「奥拉夫・朔尔茨是联邦德国第九任总理」这样的句子,其中「奥拉夫・朔尔茨」这个名字位于描述「联邦德国第九任总理」之前。大模型可能学会了正确回答「奥拉夫・朔尔茨是谁」(答案是:德国第九任总理)。但它无法回答「德国第九任总理是谁」或者其他描述位于名称之前的提示。
这是由于排序效应导致的「逆转诅咒」。如果模型1在训练时以「
因此,有人认为大模型的推理实际上并不存在,逆转诅咒表明了LLM训练过程中逻辑推理的基本失败。而且,这并不是LLM不理解逻辑推论所能解释的。例如,像***-4这样的大模型在其上下文窗口中给出「A 是 B」时,它可以很好地推断出「B 是 A」。
虽然将逆转诅咒与逻辑推理联系起来是有用的,但它仅是整体情况的简化。目前我们无法直接测试经过「A 是 B」训练后的大模型是否能推导出「B 是 A」。大模型训练后可以预测人类会写下的下一个单词,而不是真实存在的内容。因此,即使LLM能够推断「B 是 A」,在提示下也可能不会明确显示出来。
然而,逆转诅咒表明了元学习的失败。以「