今天凌晨2时,OpenAI如期迎来了其技术直播系列的第12天,也是最终回。在这场直播中,OpenAI不负众望地推出了全新的预览版模型——o3。
根据o3的测试数据,该模型在美国AIME数学竞赛中的表现令人瞩目,达到了96.7分的高分,远超o1预览版的56.7分以及o1正式版的83.3%准确率,仅有一道题目出错,其表现已接近顶尖数学家的水平。
在ARCAGI的测试中,o3同样展现出了强大的实力。在低算力资源的情况下,o3实现了75.7%的准确率,而在增加计算资源后,准确率更是提升至87.5%,这也是首次有大模型在测试中超过了人类85%的平均水平,标志着人工智能技术的又一重大突破。
值得注意的是,OpenAI此次直接跳过了o2的命名,发布了o3模型。这主要是因为“o2”这一名称与英国著名电信公司发生了冲突,因此OpenAI选择了直接发布第三代模型。
o3模型在多个测试中都取得了优异的成绩。在软件风格基准测试中,o3在3benchverified基准测试中的准确率达到了71.7%,相比o1模型提升了超过20%。在竞赛代码领域,o3在CodeForces竞赛编码网站上的ELO分数高达2727分,远超o1模型的1891分,甚至超过了OpenAI首席科学家Yakov的分数,接近公司内部顶尖编程高手的水平。
在数学能力测试中,o3在Amy考试中的准确率高达96.7%,而o1仅为83.3%。在美国数学奥林匹克预选考试的高难度测试中,o3通常仅错一题,表现出色。在衡量模型处理博士阶段科学问题能力的GPQADiamond基准测试中,o3的准确率高达87.7%,比o1提高了约10%,甚至超过了领域专家博士通常能达到的70%的水平。
在ARCAGI基准测试中,o3同样取得了重大突破。在低计算条件下,o3在ARCAGI的半私有保留集上得分为75.7,成为新的行业领先水平。当进一步提升计算能力时,o3在同一隐藏保留集上的得分更是高达87.5%,超过了人类在该测试中的表现阈值约85%,标志着人工智能在该领域的新里程碑。
此外,OpenAI还推出了o3Mini版本,该版本在性能与成本之间取得了良好的平衡。在编码评估方面,o3Mini展现出了出色的性能提升,随着思考时间的增加,其表现不断提升,逐渐超越了o1Mini。在中位思考时间下,o3Mini的性能甚至优于o1,能够以更低的成本提供相当甚至更好的代码性能。
在现场演示中,o3Mini的强大功能得到了直观展示。例如,模型能够成功启动本地服务器,并生成包含文本框的用户界面,用户可以在文本框中输入编码请求,模型能够迅速将请求发送至API,并自动解决任务、生成代码并保存至桌面,随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理,但o3Mini在低推理努力模式下依然表现出了极快的处理效率。
目前,o3Mini模型正处于安全测试阶段,从今天起将率先开放给外部安全研究人员进行测试,随后o3模型也将参与其中。研究人员可通过访问OpenAI的官方网站填写申请表格参与测试。