GLM 技术团队在2023年3月成功开源ChatGLM-6B后,再度突破,于近期推出了备受期待的第四代GLM系列开源模型——GLM-4-9B。
GLM-4-9B在预训练技术上进行了重大创新,利用大语言模型进行数据筛选,成功获取了高达10T的高质量多语言数据,这一数据量比之前的ChatGLM3-6B提升了三倍以上。同时,模型采用了FP8技术,显著提高了预训练效率,使训练效率提升了3.5倍。在有限显存的条件下,团队探索了性能极限,最终决定将模型规模提升至9B,并相应增加了5倍的预训练计算量。
GLM-4-9B系列模型功能丰富,包括基础版本GLM-4-9B(8K)、对话版本GLM-4-9B-Chat(128K)、超长上下文版本GLM-4-9B-Chat-1M(1M)和多模态版本GLM-4V-9B-Chat(8K)。这些模型在多个方面都展现出了卓越的性能:
基础能力:GLM-4-9B在中英文综合性能上比ChatGLM3-6B提升了40%,展现出强大的语言处理能力。
长文本能力:该模型支持长达1M tokens的上下文,相当于能够处理两本《红楼梦》或125篇论文的内容,为用户提供了前所未有的长文本处理能力。
多语言能力:GLM-4-9B支持26种语言,词表大小扩充到150k,编码效率提高了30%,为用户提供了丰富的多语言支持。
Function Call 能力:在Berkeley Function-Calling Leaderboard上,GLM-4-9B表现出色,证明了其强大的函数调用能力。
All Tools 能力:该模型可以使用外部工具完成任务,为用户提供了极大的便利性和灵活性。
多模态能力:GLM-4-9B系列首次推出了多模态模型,其性能显著,为用户提供了更加丰富的交互体验。
现在,GLM-4-9B的代码和模型已经开放获取。您可以通过以下链接访问:
代码:Github
模型:
Hugging Face
魔搭社区