2025年1月20日,一项针对人工智能(AI)在历史知识领域表现的研究结果引发了广泛关注。尽管AI在许多技术领域展现出强大的能力,但在面对高级历史问题时,却显得有些捉襟见肘。
该研究由奥地利复杂科学研究所(CSH)的专家团队主导,主要测试了目前三大顶尖的大型语言模型(LLMs)——OpenAI的GPT-4、Meta的Llama以及谷歌的Gemini。为了准确评估这些模型在历史知识上的表现,研究团队开发了一种名为“Hist-LLM”的基准测试工具。该工具基于Seshat全球历史数据库进行评分,Seshat数据库是一个以古埃及智慧女神命名的庞大历史知识库,涵盖了丰富的历史信息。
研究结果在上个月的知名AI会议NeurIPS上公布。结果显示,即使是表现最为出色的GPT-4 Turbo模型,其准确率也仅为46%,这一成绩仅略高于随机猜测的水平。
论文合著者、伦敦大学学院计算机科学副教授Maria del Rio-Chanona指出:“这项研究的核心结论是,尽管大型语言模型在处理一些基本事实时表现出色,但在面对高级历史问题时,它们仍然缺乏深度理解能力。这些模型在处理复杂的历史研究时,显然还无法胜任。”
研究人员还分享了一些模型答错的历史问题示例。例如,当被问及古埃及某一特定时期是否存在鳞甲时,GPT-4 Turbo给出了肯定的回答,然而事实上,这种技术直到1500年后才出现在埃及。del Rio-Chanona解释说,这可能是因为大型语言模型倾向于从突出的历史数据中进行推断,而对于一些较为冷门的历史知识则难以准确检索。
另一个有趣的例子是,研究人员询问GPT-4古埃及在某一历史时期是否拥有职业常备军。正确答案是否定的,但模型却错误地回答“有”。del Rio-Chanona推测,这可能是因为关于其他古代帝国(如波斯)拥有常备军的信息较多,而古埃及的相关信息较少。她进一步解释道:“如果你反复听到关于A和B的信息,而C只被提及一次,那么当你被问及C时,你可能会只记得A和B,并试图从中进行推断。”
此外,研究还发现,OpenAI和Llama模型在撒哈拉以南非洲等地区的历史知识表现上表现更差,这表明其训练数据可能存在一定的偏见。研究负责人、CSH研究员Peter Turchin表示:“这些结果表明,在某些领域,大型语言模型仍无法取代人类。”
尽管如此,研究人员对大型语言模型在未来辅助历史研究的潜力仍持乐观态度。他们正在通过纳入更多来自代表性不足地区的数据,并增加更复杂的问题来改进基准测试工具。论文总结道:“尽管我们的研究结果揭示了大型语言模型需要改进的领域,但它们也强调了这些模型在历史研究中所具有的潜力。”