近期,LeCun在推特上引发了一场关于大语言模型(LLM)推理能力的热烈讨论。他质疑LLM是否真正具备规划推理能力,并强调LLM的涌现能力实际上源于上下文学习。
研究团队通过多个实验验证了LLM在复杂规划任务上的表现不佳,并强调其能力受限于任务复杂度。他们指出,尽管LLM在某些任务中表现出色,但这些成就往往归功于上下文学习,而不是真正的规划和推理能力。
研究团队在国际规划竞赛中测试了GPT-4的自主生成可执行计划的能力。然而,实验结果显示,LLM在这方面的成功率相当有限。此外,文章还指出了一些关于LLM规划任务研究的混淆问题,包括领域知识和实际执行计划的混淆。
为了降低近似检索的有效性,研究团队通过混淆规划问题中的动作和对象的名称来挑战LLM的经验表现。尽管进行了微调和不断提示的尝试,但改进LLM的规划能力仍然困难,且可能只是将规划任务转化为基于内存的检索。
最终,文章总结认为,LLM的涌现能力主要体现在任务简单且问题已知的情境中,而在复杂规划任务和推理方面存在局限。这一讨论对于理解大语言模型的真实能力,特别是在推理和规划领域,提供了重要的见解。随着对LLM的研究的不断深入,对其真实能力的理解也在逐渐清晰,为未来自然语言处理研究方向提供了有价值的参考。
暂无评论...