先附项目地址:
Codebase: https://github.com/salesforce/xGen
Model Checkpoint: https://huggingface.co/Salesforce/xgen-7b-8k-base
随着对AI工具需求的增加,对系统能够完成更多任务的需求也越来越大。企业受益于拥有像ChatGPT或Bard等聊天界面,这些界面可以对冗长的文件进行摘要或筛选客户数据以获取见解。然而,执行这些任务需要大量数据的训练。
通常企业选择较小、更经济的模型,但这些模型无法很好地处理这些任务。开源模型如Meta的LLaMA、Falcon-7B和MPT-7B等的最大序列长度约为2,000个token,难以处理长文档等冗长非结构化数据。
因此,Salesforce推出了一系列大型语言模型XGen-7B,该模型在序列长度长达8,000个token的情况下进行训练,更容易处理冗长的文档输入,总共可以处理1.5万亿个token。Salesforce的研究人员使用内部库JaxFormer和公共领域的教学数据对这个拥有70亿参数的模型进行了训练。
与LLaMA、Falcon和Redpajama等开源模型相比,所得到的模型在性能上达到或超过了它们。Salesforce的AI研究人员表示,在Google Cloud的TPU-v4云计算平台上,仅需花费15万美元就可以对这个模型进行1万亿个token的训练。
这一系列大型语言模型的推出将为企业提供更强大的数据分析工具,帮助他们处理复杂的任务和大规模的数据。
XGen-7B的基准测试成绩引人注目。Salesforce的模型在多个方面都超越了受欢迎的开源大型语言模型。
在对“Measuring Massive Multitask Language Understanding(MMLU)”基准测试的测试中,XGen在四个测试类别中有三个取得了最高分,并且在加权平均分中也是最高的。只有Meta的LLaMA在人文学科方面的MMLU测试中得分更高。
在同一基准测试的零样本测试中,XGen取得了相似的结果,但在人文学科方面仍然不及LLaMA。总体而言,在零样本测试中,XGen只在“TruthfulQA”基准测试中超过了其他模型。在ARC_ch、Hella Swag和Winogrande等基准测试中,Meta的LLaMA表现更好。
然而,在代码生成任务中,XGen在评估基准测试的pass@1指标上超过了LLaMA和其他模型,得分为14.20,而LLaMA只有10.38。
就长序列任务而言,Salesforce的这个新AI模型在SCROLLS基准测试的QMSum和GovReport数据集上表现出色。
然而,Salesforce的研究人员指出,由于XGen模型没有在相同的教学数据上进行训练,因此它们不能严格进行比较。
Salesforce的研究人员创建了三个XGen-7B系列的模型:
1. XGen-7B-4K-base模型能够处理8000亿个上下文token,它是在2000个token和4000个token上进行训练的。该模型以Apache-2.0许可发布,意味着可以根据不同的许可协议分发派生作品,但未修改的组件必须使用Apache2.0许可。
2. XGen-7B-8K-base模型在之前的模型基础上增加了3000亿个token,使其总的上下文理解能力达到了1.5万亿个token。该模型也以Apache2.0许可发布。
3. XGen-7B-inst模型在公共领域的教学数据进行进行了微调,包括databricks-dolly-15k、oasst1、Baize和与GPT相关的数据集。该模型在4000个和8000个token上进行训练,仅用于研究目的。
为了训练这些模型,Salesforce的研究人员采用了两阶段的训练策略,每个阶段使用不同的数据混合。他们解释说,在C4数据处理过程中,使用了6个Common Crawl转储,并通过去重相同URL的文档中的最新时间戳,跨不同的转储进行了文档去重。然后训练了一个线性模型,将C4数据分类为类似于维基百科的文档和随机文档,并选择了前20%的类似于维基百科的文档。
随后,他们将由Salesforce和Hugging Face创建的代码生成模型Starcoder添加到支持代码生成任务,并将Starcoder的核心数据与前一阶段的数据混合。接下来,使用OpenAI的tiktoken对模型的数据进行token化,并添加了连续空白和制表符的额外token。
虽然Salesforce的研究人员通过开发XGen-7B模型系列,获得了一系列功能强大的AI模型,但这些模型也存在一些缺陷。Salesforce指出,这些模型仍然存在幻觉问题。他们在博客上发布了一篇详细的文章,提供了关于XGen-7B的更多信息。该模型的代码库可以在GitHub上找到,模型的检查点可以在Hugging Face上找到。
然而,Salesforce的研究人员也强调了上下文的重要性。能够理解更长的输入对企业来说可能是一个巨大的优势。大量的上下文使得预训练的语言模型能够查看客户数据并对有用的信息查询做出回应。
在聊天机器人应用中,更多的上下文意味着更多的对话。Salesforce并不是唯一一个研究这一概念的组织,其他组织也在努力扩大模型的下下文长度。Anthropic是由OpenAI的前员工创办的新兴AI初创公司,最近扩大了其旗舰应用Claude的上下文长度。Claude现在可以用于从多个冗长的商业文件或书籍中获取信息,用户可以询问有关数据的问题。
然而,目前的模型在增加上下文长度方面存在困难。用户发现,当使用类似ChatGPT和Bing的AI聊天等应用进行长时间对话时,模型的回应变得越来越不稳定。这是因为这些模型无法处理较长的上下文长度,导致混淆和产生幻觉的现象。这个问题也是当前需要解决的挑战之一。