凌晨2时,OpenAI圆满落幕其为期12天的技术直播系列,以一场重头戏——全新预览版模型o3的发布,作为完美的收官之作。
据o3的测试数据揭示,该模型在美国AIME数学竞赛中斩获了96.7分的高分,这一成绩不仅远超o1预览版的56.7分及o1正式版的83.3%准确率,更是仅有一道题之差错失满分,其表现已堪比顶尖数学家。
在ARCAGI测试中,o3同样展现出了非凡的实力。在低算力条件下,o3实现了75.7%的准确率;而当算力资源得到增强后,其准确率更是跃升至87.5%,这一成绩不仅刷新了行业记录,更是首次有大型模型在测试中超越了人类85%的平均水平,标志着人工智能技术的又一重大突破。
值得一提的是,OpenAI此次直接跳过了o2的命名,原因是与英国知名电信公司o2存在命名冲突。因此,我们迎来了直接命名为o3的第三代模型。
o3的主要测试数据同样令人瞩目:
在3benchverified基准测试中,o3模型在真实世界软件任务上的准确率高达71.7%,相较于o1模型提升了超过20个百分点。
在CodeForces竞赛编码网站上,o3模型的ELO分数达到了约2727分,远超o1模型的1891分,甚至超越了OpenAI首席科学家Yakov的分数,接近公司内部顶尖编程高手的水平,彰显了其在复杂编程竞赛任务中的卓越逻辑推理和算法实现能力。
在Amy数学考试中,o3模型的准确率高达96.7%,而o1模型仅为83.3%。这一成绩再次证明了o3在数学领域的顶尖实力。
在GPQADiamond基准测试中,o3模型以87.7%的准确率超越了o1模型的78%,更是超过了领域专家博士通常能达到的70%的水平,表明其在数学和科学领域的复杂问题处理上已接近甚至超越人类专家。
在ARCAGI基准测试中,o3模型更是取得了历史性突破。在低计算条件下,o3模型在ARCAGI的半私有保留集上得分高达75.7%,成为新的行业领先水平。而当计算能力进一步提升时,其在同一隐藏保留集上的得分更是攀升至87.5%,超越了人类在该测试中的表现阈值约85%,标志着人工智能在该领域的新里程碑。
此外,OpenAI还推出了o3Mini版本,该版本在性能与成本之间取得了良好的平衡。在编码评估方面,o3Mini模型展现出了出色的性能提升,甚至在中位思考时间下优于o1模型,能够以更低的成本提供相当甚至更好的代码性能。这意味着开发人员可以在不增加过多成本的情况下,获得更高效的编程辅助。
在现场演示中,o3Mini模型的强大功能得到了直观展示。例如,模型能够成功启动本地服务器、生成用户界面、接收编码请求、自动解决任务并生成代码执行。整个过程复杂且涉及大量代码处理,但o3Mini模型在低推理努力模式下依然表现出了极快的处理效率。
目前,o3Mini模型已率先开放给外部安全研究人员进行测试,随后o3模型也将加入测试行列。研究人员可通过访问OpenAI的官方网站填写申请表格参与测试。这一举措不仅有助于提升模型的安全性,也为人工智能技术的进一步发展奠定了坚实基础。