678CHAT AI资讯 谷歌DeepMind秀出新招:用GenRM技术给AI大脑加点料,推理能力大提升!

谷歌DeepMind秀出新招:用GenRM技术给AI大脑加点料,推理能力大提升!

近日,科技界传来一则令人瞩目的消息,谷歌旗下的DeepMind团队在8月27日于arxiv上发表了一篇引人注目的研究论文,该论文详细介绍了一种名为GenRM的生成式验证器。这一创新成果不仅提出了一种全新的奖励模型,而且有望显著提升生成式人工智能的推理能力。

谷歌DeepMind秀出新招:用GenRM技术给AI大脑加点料,推理能力大提升!插图

在人工智能领域,尤其是大型语言模型(LLMs)的优化上,目前普遍采用的是Best-of-N策略。简而言之,就是让LLM生成多个候选方案,然后由验证器对这些方案进行评估和排序,最终挑选出最优解。

然而,现有的基于LLM的验证器通常被训练成判别分类器,它们在为解决方案打分时,往往无法充分利用LLMs在文本生成方面的先天优势。

为了突破这一瓶颈,DeepMind团队采取了一种创新的方法:他们尝试通过下一个token预测目标来训练验证器,这样不仅能够进行验证,还能同时生成解决方案。

这种新型的生成式验证器(GenRM)与传统验证器相比,具有以下显著优势:

  • 谷歌DeepMind秀出新招:用GenRM技术给AI大脑加点料,推理能力大提升!插图1

    能够无缝地整合指令调整,使得验证器更加灵活和适应性强。

  • 支持思维链推理,这意味着验证器能够进行更深层次的逻辑思考和问题解决。

  • 通过多数投票机制,可以利用额外的推理时间来提高计算的准确性。

在算法和基础数学推理任务中,GenRM的表现超越了传统的判别式验证器以及LLM-as-a-Judge验证器。在解决Best-of-N问题的效率上,GenRM的成功率提高了16-64%。

谷歌DeepMind的这一报道指出,GenRM相对于传统的分类奖励模型,标志着人工智能奖励系统的一个重要进化。尤其是在模型容量方面,GenRM的设计有助于防止新模型学习到不当的行为。这一进步不仅展示了人工智能领域的快速发展,也强调了在人工智能输出与社会责任标准之间保持一致性的重要性。

谷歌DeepMind秀出新招:用GenRM技术给AI大脑加点料,推理能力大提升!插图2

这一研究成果的发布,无疑为人工智能的未来发展提供了新的思路和方向。随着技术的不断进步,我们有理由相信,人工智能将在更多领域展现出其巨大的潜力和价值。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/1907.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部