阿里巴巴开源模型Qwen2-72B荣登全球开源大模型排行榜榜首
6月27日,全球知名开源平台Hugging Face的联合创始人兼首席执行官Clem在社交平台激动地宣布,阿里巴巴最新开源的Qwen2-72B指令微调版本在开源模型排行榜上成功登顶。
为了构建一个更加公正、准确的开源大模型排名体系,Clem及其团队动用了300块H100高性能硬件,对全球超过100个主流开源大模型,如Qwen2、Llama-3、Mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等严苛的基准测试集上进行了全面评估。
此次评估的初衷在于纠正当前开发者过度追求排行榜名次而可能导致的评估集数据过度依赖问题,同时,过去的评估标准对于模型而言显得相对简单。因此,本次评估提高了难度标准,以真实反映这些模型在面对更高挑战时的性能表现。
令人瞩目的是,阿里巴巴的Qwen2-72B模型在此次评估中表现卓越,不仅超越了科技巨头Meta的Llama-3,还超越了法国知名大模型平台Mistralai的Mixtral,成功登顶。这一成绩无疑彰显了中国在全球开源大模型领域的强劲实力。
对此,Stability AI的研究总监、早年在19岁便获得博士学位的Tanishq表示,他早就预见到中国在开源大模型领域的巨大潜力。除了Qwen2,零一万物、InternLM、Deepsseek等众多优秀的中国开源模型也在国际舞台上崭露头角。
Tanishq进一步强调,任何质疑中国在开源大模型领域落后的声音都是站不住脚的。相反,中国正在这一领域展现出强大的领导力,引领着全球开源模型的发展潮流。
文心大模型3.5生成
改写快科技6月27日消息,全球知名的开源平台Hugging Face的联合创始人兼首席执行官Clem在社交平台激动宣布,阿里巴巴最新开源的Qwen2-72B指令微调版本在开源模型排行榜上荣登榜首。
为了打造一个更为公正和准确的开源大模型排名,Clem及其团队利用300块H100高性能硬件,对全球100多个主流开源大模型,包括Qwen2、Llama-3、Mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等严格的基准测试集上进行了全面而深入的评估。
这次重新评估的初衷在于,许多开发者过于追求排行榜的名次,导致在模型训练过程中过度依赖评估集数据,并且过去的评估标准对于模型而言显得过于简单。因此,本次评估提高了难度标准,以检验这些模型在更高挑战下的真实性能。
令人瞩目的是,阿里巴巴开源的Qwen-2 72B模型在激烈竞争中脱颖而出,不仅超越了科技巨头Meta的Llama-3,还超越了法国知名大模型平台Mistralai的Mixtral,成为了新的行业领军者。这一成绩充分展示了中国在全球开源大模型领域的领导地位。