开源新标杆!340亿参数最强中英双语大模型问世,超越Llama2-70B等所有开源模型,不仅模型够大够能打,而且还一口气送上整套“全家桶”级豪华周边。
能有如此大手笔的,正是中国大模型开源派先锋——智源研究院。
而若是纵观智源在数年来的大模型开源之道,不难发现它正在引领着一种新风向:
早在2021年就把全球最大语料库公开,2022年最早前瞻布局FlagOpen大模型技术开源体系,连续推出了FlagEval评测体系、COIG数据集、BGE向量模型等全技术栈明星项目。
这一魄力正是来自智源非商业、非营利的中立研究机构定位,主打的就是一个“诚心诚意开源共创”。
据了解,Aquila2-34B基座模型在22个评测基准的综合排名领先,包括语言、理解、推理、代码、考试等多个评测维度。它还能为科研实验提供一种标准化工具和衡量标准,并能够提高人工智能研究的速度和效率。
开源全家桶:北京智源人工智能研究院还非常良心地将开源贯彻到底,一口气带来开源全家桶:全面升级Aquila2模型系列:Aquila2-34B/7B基础模型,AquilaChat2-34B/7B对话模型,AquilaSQL“文本-SQL语言”模型;语义向量模型BGE新版本升级:4大检索诉求全覆盖。FlagScale高效并行训练框架:训练吞吐量、GPU利用率业界领先;FlagAttention高性能Attention算子集:创新支撑长文本训练、Triton语言。“最强开源”能力一览:Aquila2-34B基座模型与对话模型引领潮流
正如我们刚才所提到的,Aquila2-34B作为此次开源的重要模型之一,展现了出色的能力和性能。此外,还有一个较小的Aquila2-7B模型也一同亮相。这些模型的到来为下游工作提供了极大的便利,让我们一起来详细了解一下吧。
在对话模型方面,智源团队通过指令微调得到了优秀的AquilaChat2系列对话模型:
AquilaChat2-34B:这是当前最强大的中英双语开源对话模型,在主观和客观综合评测中均取得了全面领先的优异表现。
AquilaChat2-7B:该模型在同量级中英对话模型中也同样表现出色,取得了综合性能最佳的成绩。
为了让大家更好地了解AquilaChat2系列对话模型的性能,智源团队对其进行了严格评测。具体来说,智源团队参考了斯坦福大学HELM工作的方法,严格按照“模型在问题输入下自由生成的答案”进行评判。这种评测方式更加贴近用户真实使用场景,对于模型的上下文学习和指令跟随能力要求更为严格。
在实际评测过程中,智源团队发现部分对话模型回答不符合指令要求,因此会被判为“0”分。例如,根据指令要求,正确答案为“A”,如果模型生成为“B”或“答案是 A”,都会被判为“0”分。
值得注意的是,在推理能力方面,AquilaChat2-34B表现非常出色。在IRD评测基准中,AquilaChat2-34B的推理能力排名第一,超越了Llama2-70B、GPT3.5等其他模型,仅次于GPT4。这一表现充分证明了AquilaChat2-34B在推理方面的强大实力。
除了AquilaChat2系列对话模型外,智源团队还为大家带来了其他开源全家桶内容:
全面升级Aquila2模型系列:包括Aquila2-34B/7B基础模型、AquilaChat2-34B/7B对话模型和AquilaSQL“文本-SQL语言”模型等。这些模型将为科研实验提供一种标准化工具和衡量标准,并能够提高人工智能研究的速度和效率。
语义向量模型BGE新版本升级:覆盖了四大检索诉求。
FlagScale高效并行训练框架:在训练吞吐量和GPU利用率方面领先业界。
FlagAttention高性能Attention算子集:创新支持长文本训练和Triton语言。
综上所述,智源团队通过开源全家桶为大家呈现了“最强开源”的能力一览。这些模型不仅具有强大的功能和性能,还为下游工作提供了丰富的资源。相信这些开源的资源和工具将为人工智能领域的发展和应用带来更多可能性。