678CHAT AI资讯谷歌DeepMind秀出新招：用GenRM技术给AI大脑加点料，推理能力大提升！

谷歌DeepMind秀出新招：用GenRM技术给AI大脑加点料，推理能力大提升！

作者: 678chat 发布: 2024 年 9 月 3 日 283阅读 0评论

近日，科技界传来一则令人瞩目的消息，谷歌旗下的DeepMind团队在8月27日于arxiv上发表了一篇引人注目的研究论文，该论文详细介绍了一种名为GenRM的生成式验证器。这一创新成果不仅提出了一种全新的奖励模型，而且有望显著提升生成式人工智能的推理能力。

在人工智能领域，尤其是大型语言模型（LLMs）的优化上，目前普遍采用的是Best-of-N策略。简而言之，就是让LLM生成多个候选方案，然后由验证器对这些方案进行评估和排序，最终挑选出最优解。

然而，现有的基于LLM的验证器通常被训练成判别分类器，它们在为解决方案打分时，往往无法充分利用LLMs在文本生成方面的先天优势。

为了突破这一瓶颈，DeepMind团队采取了一种创新的方法：他们尝试通过下一个token预测目标来训练验证器，这样不仅能够进行验证，还能同时生成解决方案。

这种新型的生成式验证器（GenRM）与传统验证器相比，具有以下显著优势：

能够无缝地整合指令调整，使得验证器更加灵活和适应性强。
支持思维链推理，这意味着验证器能够进行更深层次的逻辑思考和问题解决。
通过多数投票机制，可以利用额外的推理时间来提高计算的准确性。

在算法和基础数学推理任务中，GenRM的表现超越了传统的判别式验证器以及LLM-as-a-Judge验证器。在解决Best-of-N问题的效率上，GenRM的成功率提高了16-64%。

谷歌DeepMind的这一报道指出，GenRM相对于传统的分类奖励模型，标志着人工智能奖励系统的一个重要进化。尤其是在模型容量方面，GenRM的设计有助于防止新模型学习到不当的行为。这一进步不仅展示了人工智能领域的快速发展，也强调了在人工智能输出与社会责任标准之间保持一致性的重要性。

这一研究成果的发布，无疑为人工智能的未来发展提供了新的思路和方向。随着技术的不断进步，我们有理由相信，人工智能将在更多领域展现出其巨大的潜力和价值。

本文来自网络，不代表678CHAT立场，转载请注明出处：https://www.678chat.com/ai/1907.html

13赞

标签:人工智能谷歌

发表回复取消回复