10月31日,OpenAI在最新声明中宣布,他们将开源一个名为SimpleQA的新基准测试工具,旨在评估语言模型对简短事实查询问题的回答准确性。
在人工智能领域,一个长期存在的挑战是如何训练模型以生成基于事实的回答。当前的语言模型有时会输出错误信息或未经验证的内容,这种现象被称为“幻觉”。能够提供更准确、更少幻觉的语言模型将更加可靠,并能被应用于更广泛的领域。
OpenAI的目标是通过SimpleQA构建一个具有以下特性的数据集:
-
准确性:SimpleQA中的问题参考答案均经过两名独立的AI训练师验证,以确保评分的客观性。
-
广泛性:SimpleQA覆盖了广泛的主题,从科技到流行文化,包括电视节目和电子游戏。
-
挑战性:与TriviaQA(2017年)或NQ(2019年)等早期基准相比,SimpleQA更具挑战性,尤其是对于像GPT-4o这样的前沿模型,其得分不足40%。
-
用户体验:SimpleQA的问题和答案设计简洁,便于快速操作和通过OpenAI API等工具进行评分。此外,包含4326个问题的SimpleQA在评估中展现出较低的方差。
SimpleQA将作为一个简单但具有挑战性的基准,用于评估前沿模型在事实准确性方面的表现。然而,SimpleQA的主要局限在于其范围——尽管SimpleQA在准确性上有所保证,但它仅在短查询的特定设置中衡量事实准确性,这些查询是事实导向的,并且具有可验证的答案。
OpenAI指出,模型在简短回答中表现出的事实性是否能够反映其在长篇、多事实内容中的表现,仍是一个未解决的研究问题。他们希望SimpleQA的开源能够促进AI研究的进步,使模型更加可信和可靠。
更多信息,请访问以下链接:
-
开源项目地址:https://github.com/openai/simple-evals/
-
相关论文:https://cdn.openai.com/papers/simpleqa.pdf