AI不行了：研究发现GPT-4 Turbo答高级历史题，准确率才46%

2025年1月20日，一项针对人工智能（AI）在历史知识领域表现的研究结果引发了广泛关注。尽管AI在许多技术领域展现出强大的能力，但在面对高级历史问题时，却显得有些捉襟见肘。

该研究由奥地利复杂科学研究所（CSH）的专家团队主导，主要测试了目前三大顶尖的大型语言模型（LLMs）——OpenAI的GPT-4、Meta的Llama以及谷歌的Gemini。为了准确评估这些模型在历史知识上的表现，研究团队开发了一种名为“Hist-LLM”的基准测试工具。该工具基于Seshat全球历史数据库进行评分，Seshat数据库是一个以古埃及智慧女神命名的庞大历史知识库，涵盖了丰富的历史信息。

研究结果在上个月的知名AI会议NeurIPS上公布。结果显示，即使是表现最为出色的GPT-4 Turbo模型，其准确率也仅为46%，这一成绩仅略高于随机猜测的水平。

论文合著者、伦敦大学学院计算机科学副教授Maria del Rio-Chanona指出：“这项研究的核心结论是，尽管大型语言模型在处理一些基本事实时表现出色，但在面对高级历史问题时，它们仍然缺乏深度理解能力。这些模型在处理复杂的历史研究时，显然还无法胜任。”

研究人员还分享了一些模型答错的历史问题示例。例如，当被问及古埃及某一特定时期是否存在鳞甲时，GPT-4 Turbo给出了肯定的回答，然而事实上，这种技术直到1500年后才出现在埃及。del Rio-Chanona解释说，这可能是因为大型语言模型倾向于从突出的历史数据中进行推断，而对于一些较为冷门的历史知识则难以准确检索。

另一个有趣的例子是，研究人员询问GPT-4古埃及在某一历史时期是否拥有职业常备军。正确答案是否定的，但模型却错误地回答“有”。del Rio-Chanona推测，这可能是因为关于其他古代帝国（如波斯）拥有常备军的信息较多，而古埃及的相关信息较少。她进一步解释道：“如果你反复听到关于A和B的信息，而C只被提及一次，那么当你被问及C时，你可能会只记得A和B，并试图从中进行推断。”

此外，研究还发现，OpenAI和Llama模型在撒哈拉以南非洲等地区的历史知识表现上表现更差，这表明其训练数据可能存在一定的偏见。研究负责人、CSH研究员Peter Turchin表示：“这些结果表明，在某些领域，大型语言模型仍无法取代人类。”

尽管如此，研究人员对大型语言模型在未来辅助历史研究的潜力仍持乐观态度。他们正在通过纳入更多来自代表性不足地区的数据，并增加更复杂的问题来改进基准测试工具。论文总结道：“尽管我们的研究结果揭示了大型语言模型需要改进的领域，但它们也强调了这些模型在历史研究中所具有的潜力。”

微信扫一扫：分享

相关文章

刘慈欣预言：AI终将突破科幻创作结界？深度解码人机文学博弈战

破局糖界！全球首个1型糖尿病AI大模型中国首发

市场监管总局要快马加鞭搞人工智能的国家标准制定

腾讯HaploVL：AI也能眼观六路啦！细粒度视觉理解技术大突破！

美团、快手、拼多多，AI大战谁最狠？

AI眼镜：未来神器还是摆件？说说真心话

发表回复 取消回复

发表回复取消回复