微软研究团队最新发布了名为LLMLingua-2的模型,这款模型专注于实现任务无关性的提示压缩。通过巧妙地去除长提示中的冗余词汇或标记,同时确保关键信息的完整性,LLMLingua-2成功将提示长度缩减至原长度的20%,进而大幅度降低了成本和延迟。
研究团队指出:“自然语言本身存在冗余性,不同词语或标记所携带的信息量并不相同。”这一发现为LLMLingua-2模型的开发提供了理论支撑。
相较于其前身LLMLingua以及其他类似方法,LLMLingua-2的运行速度提高了3到6倍。该模型利用MeetingBank数据集中的会议记录及其摘要进行训练,具备强大的文本压缩能力。在使用过程中,用户只需将原始文本输入至已训练好的模型中,模型便会为每个词语打分,并根据上下文环境为其分配保留或移除的权重。随后,模型会选择保留值最高的词语,以生成精炼的提示。
微软研究团队在多个数据集上对LLMLingua-2进行了全面评估,包括MeetingBank、LongBench、ZeroScrolls、GSM8K和BBH等。尽管LLMLingua-2的模型规模相对较小,但在问答、摘要和逻辑推理等多种语言任务中,其表现均优于原始的LLMLingua和选择性上下文策略。此外,该压缩策略同样适用于不同规模和语言的LLM,从GPT-3.5到Mistral-7B,以及从英语到中文等多种语言。
值得一提的是,LLMLingua-2的使用异常便捷,仅需两行代码即可轻松实现。目前,该模型已集成至广受欢迎的RAG框架LangChain和LlamaIndex中,为用户提供了更为丰富的应用场景。微软还提供了详细的演示、实际应用案例以及说明提示压缩带来的优势与成本节约的脚本,帮助用户更好地理解和应用这一技术。
展望未来,微软公司认为LLMLingua-2模型所代表的提示压缩技术具有广阔的应用前景。通过优化提示,不仅能够提升模型的泛化能力,还能够显著提高处理效率,为自然语言处理领域的发展注入新的活力。