1/30 沈向洋、姜大昕、张祥雨他们开源的推理模型RL训练方法，我来复刻

在人工智能领域，开源一直是推动技术进步和创新的重要力量。然而，尽管 DeepSeek 在大模型领域取得了显著成就，却并未完全开源其训练代码和数据，这无疑给研究人员和开发者带来了一定的限制。

如今，这一局面被打破。国内大模型领域的佼佼者之一阶跃星辰联合清华大学发布了 Open Reasoner Zero（简称 ORZ），这是一个开源的强化学习训练方法。该项目由 AI 领域的重量级人物沈向洋、阶跃星辰创始人兼 CEO 姜大昕、ResNet 的作者张祥雨等领衔，其影响力和权威性不言而喻。

ORZ 的出现，标志着开源社区在大模型训练领域迈出了重要一步。它不仅在训练效率上取得了巨大突破，仅用 1/30 的训练步骤就能达到与 DeepSeek-R1-Zero 蒸馏 Qwen 相同的效果，而且在响应长度上，仅需约 17% 的训练步骤就能赶上 DeepSeek-R1-Zero 671B，展现出极高的效率和潜力。

更令人振奋的是，ORZ 团队在训练过程中发现了一个关键的转折点。在训练步骤达到约 680 步时，模型的训练奖励值、反思能力和回答长度同时显著提升，这与 DeepSeek-R1-Zero 论文中描述的“顿悟时刻”极为相似。这一发现为理解模型训练过程中的关键节点提供了新的视角。

目前，ORZ 的研究训练数据、训练代码、论文以及模型已经全部 100% 开源，并且采用了宽松的 MIT 许可证，这意味着任何人都可以自由地使用和修改这些资源。开源仅 48 小时，该项目就已经获得了 700 多个星标，其受欢迎程度可见一斑。

极简主义的胜利

通过大量实验，ORZ 团队证明了一种极简主义的方法。他们发现，带有 GAE 的原版 PPO（参数化策略优化）算法，通过设置关键参数 GAE λ=1 和折扣因子 γ=1，就可以有效地扩展强化学习训练。

此外，基于规则的奖励函数在推理任务上表现出了强大的能力，能够在扩大响应长度的同时提升基准性能，这与 DeepSeek-R1-Zero 中观察到的现象一致。这一结果表明，在某些情况下，复杂的奖励函数并非必要。

值得注意的是，ORZ 团队在训练过程中没有依赖任何基于 KL 散度的正则化技术，却依然实现了稳定的训练。这与目前 RLHF（强化学习人类反馈）和推理模型领域的主流认知有所不同，为强化学习的进一步扩展提供了新的思路。

数据的规模和多样性对 ORZ 的训练至关重要。虽然在有限的学术数据集（如 MATH）上训练会导致性能快速达到瓶颈，但通过精心策划的大规模多样化数据集，模型能够持续扩展，且在训练集和测试集上均未出现饱和迹象。

在以 Qwen2.5-Base-7B 为基础模型的实验中，所有基准测试在某个时间点都经历了奖励和响应长度的突然增加，这种现象类似于涌现行为。在整个训练过程中，平均正确反思长度始终高于平均响应长度。特别是在第 680 步附近，三个指标同时加速，这一现象尤为值得关注。

最终，Open-Reasoner-Zero 模型在 MMLU 和 MMLU_PRO 基准测试中，无需任何额外的指令调整，就超越了 Qwen2.5 Instruct，展现出强大的性能。

未来展望

在阶跃星辰生态开放日上，姜大昕曾简单提及这项研究。当时只是轻描淡写地提了一嘴，因为研究尚未完全完成，随时可能有新的进展。对于关注人工智能领域的研究者和开发者来说，ORZ 无疑是一个值得持续关注的项目。

项目地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/

极简主义的胜利

未来展望

微信扫一扫：分享

相关文章

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

Wayve祭出驾驶界「五维沙盘」：GAIA-2模型可生成五视角视频，模拟「死神来了」级路况

慢增长时代的突围战：快手的AI「换血」能解估值困局吗？

具身智能战国时代：BATJ华为小米千亿押注，中国军团剑指全球AI王座

教育新基建升级！腾讯混元大模型实战课入选「国家队」 首套AI通识课体系发布

发表回复 取消回复

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

教育新基建升级！腾讯混元大模型实战课入选「国家队」首套AI通识课体系发布

发表回复取消回复