678CHAT AI资讯 OpenAI 放出新招，让大模型不再满嘴跑火车

OpenAI 放出新招，让大模型不再满嘴跑火车

作者: 678chat 发布: 2024 年 10 月 31 日 191阅读 0评论

10月31日，OpenAI在最新声明中宣布，他们将开源一个名为SimpleQA的新基准测试工具，旨在评估语言模型对简短事实查询问题的回答准确性。

在人工智能领域，一个长期存在的挑战是如何训练模型以生成基于事实的回答。当前的语言模型有时会输出错误信息或未经验证的内容，这种现象被称为“幻觉”。能够提供更准确、更少幻觉的语言模型将更加可靠，并能被应用于更广泛的领域。

OpenAI的目标是通过SimpleQA构建一个具有以下特性的数据集：

准确性：SimpleQA中的问题参考答案均经过两名独立的AI训练师验证，以确保评分的客观性。
广泛性：SimpleQA覆盖了广泛的主题，从科技到流行文化，包括电视节目和电子游戏。
挑战性：与TriviaQA（2017年）或NQ（2019年）等早期基准相比，SimpleQA更具挑战性，尤其是对于像GPT-4o这样的前沿模型，其得分不足40%。
用户体验：SimpleQA的问题和答案设计简洁，便于快速操作和通过OpenAI API等工具进行评分。此外，包含4326个问题的SimpleQA在评估中展现出较低的方差。

SimpleQA将作为一个简单但具有挑战性的基准，用于评估前沿模型在事实准确性方面的表现。然而，SimpleQA的主要局限在于其范围——尽管SimpleQA在准确性上有所保证，但它仅在短查询的特定设置中衡量事实准确性，这些查询是事实导向的，并且具有可验证的答案。

OpenAI指出，模型在简短回答中表现出的事实性是否能够反映其在长篇、多事实内容中的表现，仍是一个未解决的研究问题。他们希望SimpleQA的开源能够促进AI研究的进步，使模型更加可信和可靠。

更多信息，请访问以下链接：

开源项目地址：https://github.com/openai/simple-evals/
相关论文：https://cdn.openai.com/papers/simpleqa.pdf

本文来自网络，不代表678CHAT立场，转载请注明出处：https://www.678chat.com/ai/3142.html

41赞

标签:GPT-4 GPT-4o OpenAI 人工智能大模型

发表回复取消回复