OpenAI的o1太牛了，数学能力秒杀Claude和谷歌Gemini，o1-mini也并列第一！

自OpenAI的o1模型发布以来，其在lmsys社区的投票中迅速攀升至榜首，收获了6000多票的压倒性支持。为了回应公众对o1模型在国际信息学奥林匹克竞赛（IOI）金牌水平的好奇，OpenAI公开了所有在测评中提交的代码，这些代码在模拟的Codeforces编程竞赛中取得了362.14分的高分，超过了金牌门槛。

备受瞩目的o1模型在lmsys的测评中，无论是在数学、难题提示还是编码领域，都展现出了卓越的性能，超越了GPT-4o的最新版本。而o1-mini，尽管名称中带有“mini”，但其性能同样不容小觑，在综合排名中与GPT-4o并列第二，同样在难题提示、编码和数学领域取得了领先地位。

lmsys社区官方在推特上表示，这次测试结果是基于6000多社区成员的投票得出的，并称OpenAI的这一进展为“难以置信的里程碑”。为了进一步证明o1模型的实力，lmsys还统计了前25名模型的一对一胜率。结果显示，o1-preview在所有模型中的胜率均超过50%，尤其是在与04-09版GPT-4-Turbo的对决中，胜率达到了惊人的88%。

尽管o1-mini在与o1-preview的对决中胜率为46%，对09-03版GPT-4o的胜率为48%，显示出略逊一筹的实力，但这一表现仍然令人印象深刻。值得注意的是，尽管Grok-2-mini和Claude 3.5 Sonnet的排名较为靠后，但o1-preview对这两个模型的胜率并不高，分别为58%和57%，远低于排名第四的Gemini 1.5 Pro的69%。

在细分领域的排行榜中，尤其是在数学和推理领域，o1-preview和o1-mini的表现更是令人瞩目。它们不仅在数学排行榜上登顶，而且展现出了绝对的领先优势。而排在其后的Claude 3.5 Sonnet、Gemini 1.5 Pro和08-08版ChatGPT-4o的分数均在1275左右，竞争激烈；o1-preview和o1-mini则以1360左右的高分遥遥领先。

o1推理团队的领导者之一William Fedus对这一成绩表示满意，并认为这些数据“很好地用视觉表达了范式转换”。o1模型在STEM学科和通用推理方面的表现确实达到了新的高度，用实际的测评结果回应了外界对AI发展的质疑。

然而，也有人对lmsys的排行榜结果表示质疑。一些人指出，o1模型的推理时间较长，导致回答延时明显，与其他模型存在显著差异。此外，由于lmsys社区的评分完全基于用户的主观评价，因此可能存在“安慰剂效应”。

尽管如此，o1模型在编程竞赛领域的出色表现引起了AI社区的广泛关注。OpenAI决定公开o1模型在Codeforces编程竞赛中提交的所有C++代码和注释，包括6个问题。这些代码的公布，不仅展示了o1模型在编程领域的潜力，也让人们对其未来的发展前景充满期待。

o1模型的核心贡献者Alexander Wei表示，o1模型在编程竞赛中的表现令人惊讶。他曾在9年前参加过IOI竞赛，但从未想过自己会这么快就需要与AI竞争。模型展现出的推理过程的复杂程度令人印象深刻。

博文中提到，虽然o1模型距离人类的顶级表现还有很长的路要走，但我们期待有一天能实现这个目标。这让人想起了AlphaGo的发展轨迹——从水平高超，到能与人类顶级高手不分胜负，再到5-0完全碾压李世石。OpenAI的目标可能是打造一个能在编程领域碾压人类顶级高手的AlphaZero。

Reddit上的网友们对o1模型的未来发展充满期待，他们提醒我们，目前公开的只是o1的预览版，正式版o1即将在一个月内发布。此外，o1基本沿用了GPT-4的架构，让人不禁想象，改换架构后的GPT-5（传说中的猎户座）能达到怎样的高度。

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复