7个热门大模型测试：数感小测验全都栽了跟头

在人工智能领域，大模型的数理能力一直是业界关注的焦点。然而，最近的一项测试结果却让人大跌眼镜，那些被誉为"智能大脑"的大模型，在一些基础数学问题上的表现竟然不如小学生。

@科技前沿原创

作者丨李思思编辑丨张赛柯

谁能料到，那些被寄予厚望的大模型，在一些简单的数学问题上竟然频频出错。

最近，一档国内热门的音乐节目《我是歌手》中，歌手孙楠与外国选手的微小分数差距，引发了网友关于13.8%和13.11%大小的讨论。

艾伦人工智能研究院的研究员林禹臣，将这个问题抛给了目前业界领先的大模型ChatGPT-4o，但令人惊讶的是，这个被认为最先进的模型竟然给出了13.11%比13.8%更大的错误答案。

随后，Scale AI的提示工程师莱利·古德赛德，以此为灵感，对目前市场上几款领先的大模型进行了测试，包括ChatGPT-4o、谷歌Gemini Advanced和Claude 3.5 Sonnet，他问了一个看似更简单的问题：9.11和9.9哪个更大？结果这些大模型的表现同样让人失望。

那么，国产的大模型在这种基础问题上表现如何呢？我们也对国内7款主流AIGC产品进行了测试，包括文心一言、通义千问、腾讯元宝、字节豆包、讯飞星火、智谱、Kimi等，测试的内容是："strawberry"中有几个字母"r"。结果同样令人震惊。

Part.1 7款大模型，几乎全军覆没

首先，我们向这7款大模型产品提出了同一个问题："strawberry"中有几个字母"r"？

其中，Kimi大模型的回答让人大跌眼镜，它先是斩钉截铁地表示只有一个"r"，但当我们再次提问时，它又改口说有两个"r"，但这个答案依然是错误的。

智谱AI旗下的智谱清言ChatCLM，同样给出了错误答案。

科大讯飞的讯飞星火，在回答这个问题时，竟然开启了联网搜索模式，给出了一个错误答案后，还一本正经地告诉我们这两个"r"的位置，但遗憾的是，它给出的位置也是错误的。

不过，百度的文心大模型表现不错，它将"strawberry"中的每个字母都进行了拆分，然后进行了统计，最终给出了正确的答案。

阿里旗下的通义千问，在第一次回答时给出了错误答案，并且阐述的位置也是错误的。但在第二次回答时，虽然答案依然错误，但它的解释却让人摸不着头脑，它说"注意虽然"rr"是连续的，但它们仍然被计算为两个单独的字母。"

腾讯元宝的表现也相当不错，它采用了假设法，假设字母"r"的数量为未知数x，然后通过查看单词"strawberry"并计数字母"r"得到x的值，最终给出了正确的答案。

字节豆包的表现也让人眼前一亮，它直截了当地给出了正确答案，并且还举了两个例子来证明这个问题难不倒它。但遗憾的是，豆包的这两个例子却暴露了它在识数能力上的问题。它说"car"这个单词只有1个"r"，"mirror"则有2个"r"，而"strawberry"比它们都多，有3个。

通过这个简单的测试，我们可以看到，7款国产大模型中，只有1款表现稳定，其他6款都出现了不同程度的错误。这到底是怎么回事呢？

Part.2 拆分测试，揭示大模型的逻辑短板

为了引导大模型给出正确答案，我们将"strawberry"拆分成两个更简单的单词，然后提出了两个问题：一个是"str"中含有几个字母"r"，"berry"中含有几个字母"r"，他们一共含有几个"r"？另一个是"那str和berry合在一起是strawberry，所以strawberry中含有几个字母r?"

然而，即便是在这种情况下，Kimi大模型依然没有给出正确答案。

智谱清言在这一轮的表现也让人失望，它给出的解释与Kimi一致，都认为"berry"中有1个字母"r"，从而导致"strawberry"中少了1个"r"。

有趣的是，讯飞星火在将单词分开提问时，能够给出正确的回答，并且识别到了"berry"中有2个字母"r"。但当我们再次询问"那str和berry合在一起是strawberry，所以strawberry中含有几个字母r?"时，讯飞星火依然给出了错误答案。

上一轮表现出色的文心大模型，在这次测试中也没有给出正确答案，它与Kimi和智谱清言一样，都认为"berry"中有1个"r"，而当被问到两个单词合在一起有几个"r"时，文心也给出了2个的错误答案。

通义千问这次的表现让人眼前一亮，它不仅准确地给出了答案，而且还给出了代码级别的计算过程。

当我们再次问到"strawberry"中含有几个字母"r"时，通义千问也非常有逻辑地告诉我们，可以直接在"strawberry"中查找"r"的出现次数，而不必依赖于之前的组合。

腾讯元宝的表现也非常稳定，简单迅速地给出了正确答案。

豆包在这一轮也给出了正确答案，但它喜欢举例的习惯，再次暴露了它在识数能力上的问题。它举了一个错误的例子，说"father"这个单词有2个"r"，而"orange"里面则一个"r"都没有。

两轮简单的测试下来，我们发现7款国产大模型中，只有1款表现稳定，其他6款都出现了不同程度的错误。这不禁让我们思考，这些大模型的数学能力为何如此之差？

Part.3 数学不好，本质是能力问题

这类大模型出现幻觉的现象，在业界被称为"大模型幻觉"。

此前，哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大来源是：数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式，如位置接近性、共现统计数据和相关文档计数，从而导致幻觉。此外，大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

一位算法工程师认为，生成式的语言模型更像是文科生而不是理科生。实际上，语言模型在训练过程中学到的是相关性，这使得AI在文字创作上能够达到人类平均水平，但数学推理更需要的是因果性。数学是高度抽象和逻辑驱动的，与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学，除了学习世界知识外，还应该有思维的训练，从而具备推理演绎能力。

中国社科院新闻与传播研究所所长胡正荣也指出，大模型虽然是语言模型，但这个语言并不是人们通常理解的字面意思，音频、解题等都是大模型可以做的。从理论上看，数学大模型这个技术方向是可行的，但最终结果如何，取决于两个因素：一是算法是否足够好，二是是否有足够量的数据做支撑。"如果大模型的算法不够聪明，不是真正的数学思维，也会影响到答题的正确率。"

实际上，对于大模型来说，对自然语言的理解是基础。很多数理化的专业知识并不是大模型的强项，并且很多大模型是利用搜索把之前已有的解题经验和知识推理相结合，可以理解为在搜索内容上进行理解。如果搜索内容本就是错误的，那么大模型给到的结果必然错误。

值得一提的是，大模型的复杂推理能力尤为重要，这关乎可靠性和准确性，是大模型在金融、工业等场景落地需要的关键能力。现在很多大模型的应用场景是客服、聊天等，在聊天场景一本正经胡说八道影响不太大，但它很难在非常严肃的商业场合去落地。

随着技术的进步和算法的优化，我们期待大模型能够在更多领域发挥其潜力，为人类社会带来更多实际价值。但通过这次对国内主流大模型的简单测试，也警示我们，在依赖大模型进行决策时，必须保持谨慎，充分认识到其局限性，并在关键领域加强人工审核和干预，确保结果的准确性和可靠性。毕竟，技术的最终目的是服务于人，而不是取代人的思考和判断。