近日,科技界传来一则令人瞩目的消息,谷歌旗下的DeepMind团队在8月27日于arxiv上发表了一篇引人注目的研究论文,该论文详细介绍了一种名为GenRM的生成式验证器。这一创新成果不仅提出了一种全新的奖励模型,而且有望显著提升生成式人工智能的推理能力。
在人工智能领域,尤其是大型语言模型(LLMs)的优化上,目前普遍采用的是Best-of-N策略。简而言之,就是让LLM生成多个候选方案,然后由验证器对这些方案进行评估和排序,最终挑选出最优解。
然而,现有的基于LLM的验证器通常被训练成判别分类器,它们在为解决方案打分时,往往无法充分利用LLMs在文本生成方面的先天优势。
为了突破这一瓶颈,DeepMind团队采取了一种创新的方法:他们尝试通过下一个token预测目标来训练验证器,这样不仅能够进行验证,还能同时生成解决方案。
这种新型的生成式验证器(GenRM)与传统验证器相比,具有以下显著优势:
-
能够无缝地整合指令调整,使得验证器更加灵活和适应性强。
-
支持思维链推理,这意味着验证器能够进行更深层次的逻辑思考和问题解决。
-
通过多数投票机制,可以利用额外的推理时间来提高计算的准确性。
在算法和基础数学推理任务中,GenRM的表现超越了传统的判别式验证器以及LLM-as-a-Judge验证器。在解决Best-of-N问题的效率上,GenRM的成功率提高了16-64%。
谷歌DeepMind的这一报道指出,GenRM相对于传统的分类奖励模型,标志着人工智能奖励系统的一个重要进化。尤其是在模型容量方面,GenRM的设计有助于防止新模型学习到不当的行为。这一进步不仅展示了人工智能领域的快速发展,也强调了在人工智能输出与社会责任标准之间保持一致性的重要性。
这一研究成果的发布,无疑为人工智能的未来发展提供了新的思路和方向。随着技术的不断进步,我们有理由相信,人工智能将在更多领域展现出其巨大的潜力和价值。