近几个月,大型语言模型(LLMs)在人工智能界引发了广泛关注。这些模型在文本摘要、问答、代码完成和内容生成等方面表现出强大的能力。
然而,LLMs通常在质量不高的网络抓取数据上进行训练。这些数据存在诸多问题,如信息表达不清晰、杂乱无章等。按照现有的扩展原则,模型规模的增加需要计算能力和数据量同步提升,这带来了不小的挑战。
研究人员面临两大难题。首先,预训练涉及巨大的计算成本和时间。其次,互联网上高质量数据的稀缺性也成了一大问题。最新研究中,苹果和卡内基梅隆大学的研究团队提出了一种名为WRAP的方法,解决了这些问题。
WRAP是一种创新方法,利用已存在的、经过指令调整的LLM。这个LLM用于将在线页面改写成特定风格,包括模仿维基百科的语气或将文本转换为问答格式。WRAP的主要目标是通过添加真实和人工改写的数据来提高LLMs的预训练效果。
WRAP具有以下特点:
预训练效率高: 在嘈杂的C4数据集上应用WRAP,预训练速度显著加快,大约是原来的三倍。这有助于减少与LLM训练相关的昂贵费用和时间投入。
模型性能优越: 在相同的计算预算下,WRAP能提升模型性能。使用Pile的不同子集可以减少超过10%的歧义,提高13种不同活动的零-shot问题回答准确性超过2%。
网络文档改写: WRAP利用中等规模的LLM对网络文档进行改写,展现多种风格。这种方法不同于创建新数据,而是通过改进现有内容,保持信息质量与多样性。
WRAP合成的数据有两个主要优势。首先,它涵盖了多种风格,反映了应用中使用的语言多样性。这种多样性使LLM更好地应对各种实际情况。其次,WRAP改写的合成数据质量高于原始网络抓取的数据。这种质量的提升源于更有序、更连贯的语言,有助于模型更高效地学习。
WRAP是LLM预训练领域的重大突破。通过使用高质量、风格各异的合成数据,WRAP不仅加快了训练过程,还提高了LLMs的整体性能。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性,这种方法为未来的发展提供了新的可能路径。