在语言模型的研究中,一个重要的因素是上下文窗口的大小。较大的上下文窗口可以提供更多的语义信息,帮助模型更好地理解和生成与特定上下文相关的文本,并减少歧义。
近年来,随着硬件和算法的不断进步,大型语言模型的上下文窗口也越来越大。Anthropic公司是其中的佼佼者,他们在五月份将名为Claude的模型的上下文窗口从9k token扩展到了100k。最近更新的Claude2更进一步将其100K的上下文能力固定在模型中。
同时,被称为“风向标”的公司于三月份将GPT-4模型的最大上下文窗口扩展至32K,六月份又将GPT-3.5-Turbo模型的上下文长度增加了16k(此前是4k)。这些举措都旨在提升模型的上下文理解能力。
尽管如此,值得注意的是,虽然较大的上下文窗口可以带来更多的语义信息,但也存在模型效果下降的问题。这可能是因为较长的上下文窗口增加了计算和资源的负担,使得模型更加笨拙。因此,在选择上下文窗口大小时,需要平衡模型性能和计算资源之间的关系。斯坦福大学、加州伯克利大学以及Samaya的研究员在一篇名为《中途迷失:语言模型的长·上下文利用之道》的论文中提出,对于多文档问题回答和键值检索这两种任务,需要从输入的上下文中识别相关信息。然而,随着输入上下文的长度增加,大型语言模型的性能会显著下降。
具体来说,作者指出当相关信息出现在输入上下文的开头或结尾时,模型的性能通常最好。但是,当模型需要在长篇上下文的中间获取相关信息时,性能明显降低。
换句话说,当带有答案的文字被放置在文章的中间时,大型语言模型可能无法准确识别和理解该答案。
因此,增加大型模型的上下文窗口长度可能并不能提高模型的理解能力。
值得注意的是,知名科技媒体网站VentureBeat也报道了这篇论文,并咨询了一些专家,他们表示向量数据库可能是解决这个问题的关键。