678CHAT AI资讯 OpenAI 放出新招,让大模型不再满嘴跑火车

OpenAI 放出新招,让大模型不再满嘴跑火车

10月31日,OpenAI在最新声明中宣布,他们将开源一个名为SimpleQA的新基准测试工具,旨在评估语言模型对简短事实查询问题的回答准确性。

OpenAI 放出新招,让大模型不再满嘴跑火车插图

在人工智能领域,一个长期存在的挑战是如何训练模型以生成基于事实的回答。当前的语言模型有时会输出错误信息或未经验证的内容,这种现象被称为“幻觉”。能够提供更准确、更少幻觉的语言模型将更加可靠,并能被应用于更广泛的领域。

OpenAI的目标是通过SimpleQA构建一个具有以下特性的数据集:

  • 准确性:SimpleQA中的问题参考答案均经过两名独立的AI训练师验证,以确保评分的客观性。

  • 广泛性:SimpleQA覆盖了广泛的主题,从科技到流行文化,包括电视节目和电子游戏。

  • 挑战性:与TriviaQA(2017年)或NQ(2019年)等早期基准相比,SimpleQA更具挑战性,尤其是对于像GPT-4o这样的前沿模型,其得分不足40%。

  • 用户体验:SimpleQA的问题和答案设计简洁,便于快速操作和通过OpenAI API等工具进行评分。此外,包含4326个问题的SimpleQA在评估中展现出较低的方差。

SimpleQA将作为一个简单但具有挑战性的基准,用于评估前沿模型在事实准确性方面的表现。然而,SimpleQA的主要局限在于其范围——尽管SimpleQA在准确性上有所保证,但它仅在短查询的特定设置中衡量事实准确性,这些查询是事实导向的,并且具有可验证的答案。

OpenAI指出,模型在简短回答中表现出的事实性是否能够反映其在长篇、多事实内容中的表现,仍是一个未解决的研究问题。他们希望SimpleQA的开源能够促进AI研究的进步,使模型更加可信和可靠。

更多信息,请访问以下链接:

  • 开源项目地址:https://github.com/openai/simple-evals/

  • 相关论文:https://cdn.openai.com/papers/simpleqa.pdf

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/3142.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部