在人工智能领域,开源一直是推动技术进步和创新的重要力量。然而,尽管 DeepSeek 在大模型领域取得了显著成就,却并未完全开源其训练代码和数据,这无疑给研究人员和开发者带来了一定的限制。
如今,这一局面被打破。国内大模型领域的佼佼者之一阶跃星辰联合清华大学发布了 Open Reasoner Zero(简称 ORZ),这是一个开源的强化学习训练方法。该项目由 AI 领域的重量级人物沈向洋、阶跃星辰创始人兼 CEO 姜大昕、ResNet 的作者张祥雨等领衔,其影响力和权威性不言而喻。
ORZ 的出现,标志着开源社区在大模型训练领域迈出了重要一步。它不仅在训练效率上取得了巨大突破,仅用 1/30 的训练步骤就能达到与 DeepSeek-R1-Zero 蒸馏 Qwen 相同的效果,而且在响应长度上,仅需约 17% 的训练步骤就能赶上 DeepSeek-R1-Zero 671B,展现出极高的效率和潜力。
更令人振奋的是,ORZ 团队在训练过程中发现了一个关键的转折点。在训练步骤达到约 680 步时,模型的训练奖励值、反思能力和回答长度同时显著提升,这与 DeepSeek-R1-Zero 论文中描述的“顿悟时刻”极为相似。这一发现为理解模型训练过程中的关键节点提供了新的视角。
目前,ORZ 的研究训练数据、训练代码、论文以及模型已经全部 100% 开源,并且采用了宽松的 MIT 许可证,这意味着任何人都可以自由地使用和修改这些资源。开源仅 48 小时,该项目就已经获得了 700 多个星标,其受欢迎程度可见一斑。
极简主义的胜利
通过大量实验,ORZ 团队证明了一种极简主义的方法。他们发现,带有 GAE 的原版 PPO(参数化策略优化)算法,通过设置关键参数 GAE λ=1 和折扣因子 γ=1,就可以有效地扩展强化学习训练。
此外,基于规则的奖励函数在推理任务上表现出了强大的能力,能够在扩大响应长度的同时提升基准性能,这与 DeepSeek-R1-Zero 中观察到的现象一致。这一结果表明,在某些情况下,复杂的奖励函数并非必要。
值得注意的是,ORZ 团队在训练过程中没有依赖任何基于 KL 散度的正则化技术,却依然实现了稳定的训练。这与目前 RLHF(强化学习人类反馈)和推理模型领域的主流认知有所不同,为强化学习的进一步扩展提供了新的思路。
数据的规模和多样性对 ORZ 的训练至关重要。虽然在有限的学术数据集(如 MATH)上训练会导致性能快速达到瓶颈,但通过精心策划的大规模多样化数据集,模型能够持续扩展,且在训练集和测试集上均未出现饱和迹象。
在以 Qwen2.5-Base-7B 为基础模型的实验中,所有基准测试在某个时间点都经历了奖励和响应长度的突然增加,这种现象类似于涌现行为。在整个训练过程中,平均正确反思长度始终高于平均响应长度。特别是在第 680 步附近,三个指标同时加速,这一现象尤为值得关注。
最终,Open-Reasoner-Zero 模型在 MMLU 和 MMLU_PRO 基准测试中,无需任何额外的指令调整,就超越了 Qwen2.5 Instruct,展现出强大的性能。
未来展望
在阶跃星辰生态开放日上,姜大昕曾简单提及这项研究。当时只是轻描淡写地提了一嘴,因为研究尚未完全完成,随时可能有新的进展。对于关注人工智能领域的研究者和开发者来说,ORZ 无疑是一个值得持续关注的项目。
项目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/