Meta推出大模型记忆增强方法MemWalker:只需prompt,无需额外训练

大型语言模型的新突破:MemWalker技术允许模型无需额外训练即可处理长文本

MemWalker,一项由Meta开发的新技术,正在改变大型语言模型如何处理长文本的方式。这项技术通过克服模型窗口长度的限制,使其可以处理更长的文本,并在无需额外训练的情况下回答相关问题。Meta推出大模型记忆增强方法MemWalker:只需prompt,无需额外训练

该技术的核心在于一种树形记忆策略,这种策略分为两个主要阶段:记忆树构建和导航检索。在记忆树构建阶段,长文本被分割成多个小段,每个小段都由大型语言模型进行总结。这些小段被称为“叶子节点”和“非叶节点”。叶子节点包含了原始信息的概括,而非叶节点则只包含更高级别的概括信息。这些非叶节点用于定位答案所在的叶子节点,而叶子节点用于推理出答案。这个过程是逐步的,从叶子节点到非叶节点,直到建立完整的树形结构。

导航检索阶段涉及从根节点开始,逐一读取下一级子节点的内容,然后推理出是否继续前进或返回。这个过程一直持续,直到找到合适的叶子节点生成答案或达到最大步数。如果模型发现进入了错误的路径,还可以进行导航回退。此外,MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度。

重要的是,整个过程只依赖于prompt,不需要进行额外的训练。理论上,只要有足够的算力,MemWalker可以处理无限长的文本。然而,记忆树构建时的时间和空间复杂度会随着文本长度的增长呈指数型增加。Meta推出大模型记忆增强方法MemWalker:只需prompt,无需额外训练

这一技术的发展由普林斯顿大学NLP实验室的华人博士生Howard Chen领衔,得到了导师陈丹琦和Meta AI实验室的学者的参与。整个研究成果使大型语言模型在处理长文本方面迈出了重要一步。

暂无评论

暂无评论...