O3来啦！OpenAI掀起AI推理风暴，直奔AGI新高度

12月21日，OpenAI的年度盛事“12 Days of OpenAI”圆满落幕，备受瞩目的o3系列AI模型在活动中惊艳亮相。官方透露，o3系列在特定应用场景中的推理能力已接近于通用人工智能（AGI）的水平。

为何直接跳过o2，命名为o3？OpenAI的CEO山姆·阿尔特曼在今日的直播中解释，这是为了避免与英国电信公司O2的商标产生冲突。

o3模型作为o1推理模型的升级版，包含标准版和专为特定任务优化的精简版（o3-mini）。目前，OpenAI尚未全面开放这两款模型的使用，而是先行邀请安全研究人员参与预览版的o3-mini模型的安全测试。

对于有意参与测试的人士，可以通过以下链接提交申请：[申请链接](https://openai.com/index/early-access-for-safety-testing/)。

尽管阿尔特曼没有明确o3模型的全面开放时间，但他表示，o3-mini预计将在2025年1月底发布，而o3模型的发布则紧随其后。

o3模型的一大特色在于其事实核查功能，这使得它能够避免陷入一些常见AI模型的陷阱。不过，这一过程可能会导致响应时间的延迟，根据任务的复杂性，延迟时间从几秒到几分钟不等。

o3系列模型还引入了“私人思考链”的概念，允许模型在给出响应前暂停，深思熟虑相关提示，并解释其推理过程，以得出最准确的答案。

o3模型的新功能还包括可调节的推理时间，用户可以根据需要选择低、中、高三种不同的计算级别，级别越高，执行任务的性能也越出色。

AGI，即人工通用智能，指的是AI能够像人类一样执行任何任务。OpenAI将AGI定义为“在最具经济价值的工作中超越人类的高度自治系统”。

OpenAI正朝着AGI的目标稳步前进，这不仅巩固了其在AI领域的领导地位，也对投资领域产生了深远影响。根据OpenAI与微软的合作协议，一旦实现AGI，OpenAI将不再需要向微软提供其最先进的技术。

o3模型在ARC-AGI基准测试中表现出色，高计算设置下得分87.5%，低计算设置下得分75.7%，性能是前代o1的三倍。

ARC-AGI的联合创始人弗朗索瓦·肖莱特指出，尽管高计算设置成本高昂，每个任务可能需要数千美元，但在其他基准测试中，o3同样展现出色的表现：

这些成绩都是OpenAI内部评估的结果，未来还需外部客户和机构的基准测试结果来进一步验证。

o3的推出标志着OpenAI在追求通用人工智能的道路上迈出了坚实的一步。虽然o3的能力令人瞩目，但其潜在的风险也不容忽视。OpenAI承诺将继续致力于模型的安全性，并与各方合作，建立更完善的基准测试体系。

Anthropic首席科学家卡普兰：AI可能越变越强，最后反过来控制人类