今日凌晨,微软研究院正式开源了其目前最为强大的小参数模型——phi-4。
去年12月12日,微软首次向公众展示了这款参数仅140亿的phi-4模型,尽管参数规模不大,但其性能却极为出色。在GPQA(研究生水平问题回答)和MATH(数学基准测试)中,phi-4的表现均超越了OpenAI的GPT-4o,同时也优于同类顶级开源模型Qwen2.5-14B和Llama-3.3-70B。
特别值得一提的是,在美国数学竞赛AMC的测试中,phi-4更是取得了91.8分的优异成绩,这一成绩不仅超过了Gemini Pro1.5、GPT-4o、Claude3.5Sonnet、Qwen2.5等知名开闭源模型,甚至其整体性能都可以与参数规模高达4050亿的Llama-3.1相媲美。
当时,许多人都对微软这款超强的小参数模型表示了浓厚的兴趣,并希望微软能够将其开源。甚至有人在HuggingFace上传了盗版的phi-4权重。如今,微软终于响应了大家的期待,正式开源了phi-4,并且支持在MIT许可证下进行商业用途。开源地址已公布:https://huggingface.co/microsoft/phi-4/tree/main。
HuggingFace官方推特也发来祝贺,足见phi-4的影响力之大。网友们纷纷表示,2025年有了一个美好的开始,phi-4堪称有史以来最好的14B模型!还有人对phi-4在MMLU测试中取得的84.8分表示惊叹,并纷纷向微软表示祝贺和感谢。
关于phi-4,值得一提的是其高质量的合成数据在模型训练中发挥了关键作用。与传统的从网络爬取的有机数据相比,合成数据更具结构化、逐步性的优势,能够帮助模型更加高效地学习语言的逻辑与推理过程。phi-4的合成数据生成遵循了多样性、细腻性与复杂性、准确性和推理链等原则,涵盖了50多种不同类型的合成数据集,生成了约4000亿个未加权的tokens。
除了合成数据外,phi-4还对有机数据进行了严格的筛选与过滤,从多渠道收集数据,并通过两阶段过滤过程提取出具有高教育价值和推理深度的种子数据。这些种子数据为合成数据的生成提供了基础,同时也直接用于预训练,进一步丰富了模型的知识储备。
在预训练方面,phi-4主要使用合成数据进行训练,同时辅以少量的高质量有机数据。这种数据混合策略使得模型能够在学习推理和问题解决能力的同时,也能够吸收丰富的知识内容。此外,phi-4还通过中期训练和后期训练阶段的优化,进一步提升了模型的性能。
为了评估phi-4的性能,微软在多个基准测试上进行了测试。结果显示,phi-4在学术基准测试如MMLU、GPQA、MATH、HumanEval等均表现出色,特别是在数学竞赛相关的任务中展现出强大的推理能力。在与其他类似规模和更大规模的模型比较中,phi-4在多个基准测试上均优于同类开源模型。