OpenAI震撼发布新模型o3，一夜之间再次引领世界变革！

今天凌晨2时，OpenAI如期迎来了其技术直播系列的第12天，也是最终回。在这场直播中，OpenAI不负众望地推出了全新的预览版模型——o3。

根据o3的测试数据，该模型在美国AIME数学竞赛中的表现令人瞩目，达到了96.7分的高分，远超o1预览版的56.7分以及o1正式版的83.3%准确率，仅有一道题目出错，其表现已接近顶尖数学家的水平。

在ARCAGI的测试中，o3同样展现出了强大的实力。在低算力资源的情况下，o3实现了75.7%的准确率，而在增加计算资源后，准确率更是提升至87.5%，这也是首次有大模型在测试中超过了人类85%的平均水平，标志着人工智能技术的又一重大突破。

值得注意的是，OpenAI此次直接跳过了o2的命名，发布了o3模型。这主要是因为“o2”这一名称与英国著名电信公司发生了冲突，因此OpenAI选择了直接发布第三代模型。

o3模型在多个测试中都取得了优异的成绩。在软件风格基准测试中，o3在3benchverified基准测试中的准确率达到了71.7%，相比o1模型提升了超过20%。在竞赛代码领域，o3在CodeForces竞赛编码网站上的ELO分数高达2727分，远超o1模型的1891分，甚至超过了OpenAI首席科学家Yakov的分数，接近公司内部顶尖编程高手的水平。

在数学能力测试中，o3在Amy考试中的准确率高达96.7%，而o1仅为83.3%。在美国数学奥林匹克预选考试的高难度测试中，o3通常仅错一题，表现出色。在衡量模型处理博士阶段科学问题能力的GPQADiamond基准测试中，o3的准确率高达87.7%，比o1提高了约10%，甚至超过了领域专家博士通常能达到的70%的水平。

在ARCAGI基准测试中，o3同样取得了重大突破。在低计算条件下，o3在ARCAGI的半私有保留集上得分为75.7，成为新的行业领先水平。当进一步提升计算能力时，o3在同一隐藏保留集上的得分更是高达87.5%，超过了人类在该测试中的表现阈值约85%，标志着人工智能在该领域的新里程碑。

此外，OpenAI还推出了o3Mini版本，该版本在性能与成本之间取得了良好的平衡。在编码评估方面，o3Mini展现出了出色的性能提升，随着思考时间的增加，其表现不断提升，逐渐超越了o1Mini。在中位思考时间下，o3Mini的性能甚至优于o1，能够以更低的成本提供相当甚至更好的代码性能。

在现场演示中，o3Mini的强大功能得到了直观展示。例如，模型能够成功启动本地服务器，并生成包含文本框的用户界面，用户可以在文本框中输入编码请求，模型能够迅速将请求发送至API，并自动解决任务、生成代码并保存至桌面，随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理，但o3Mini在低推理努力模式下依然表现出了极快的处理效率。

目前，o3Mini模型正处于安全测试阶段，从今天起将率先开放给外部安全研究人员进行测试，随后o3模型也将参与其中。研究人员可通过访问OpenAI的官方网站填写申请表格参与测试。