在人工智能领域,多模态推理模型正逐渐成为研究的热点。3 月 18 日,昆仑万维宣布开源其首款工业级多模态思维链推理模型 Skywork R1V,这标志着中国在开源多模态推理模型领域迈出了重要的一步。从即日起,开发者可以通过官方渠道获取模型权重和技术报告,开启对这一先进模型的探索之旅。
视觉推理模型作为多模态推理的重要组成部分,其核心在于能够对视觉信息进行深度的逻辑推理与分析。这类模型不仅能够识别图像中的内容,更能通过多步的逻辑推理,逐步解决复杂的视觉问题。无论是视觉逻辑推理、视觉数学问题的求解,还是对图像中科学现象的分析以及医学影像的诊断推理,视觉推理模型都能发挥其强大的功能。
Skywork R1V 在推理能力方面表现卓越。在权威的 MATH500 和 AIME 基准测试中,该模型分别取得了 94.0 和 72.0 分的优异成绩,展现了其顶尖的逻辑推理与数学分析能力。在视觉理解能力方面,Skywork R1V 也毫不逊色,成功地将其文本推理能力迁移到视觉任务中,在 MMMU 和 MathVista 等视觉推理基准测试中分别获得了 69 分和 67.5 分,与一些更大规模的闭源模型相比也毫不逊色。
昆仑万维的 Skywork R1V 模型之所以能够取得如此出色的成绩,得益于其三项关键技术创新。首先,团队提出了文本推理能力的多模态高效迁移技术。通过利用 Skywork-VL 的视觉投影器,无需重新训练语言模型和视觉编码器,即可将文本推理能力高效迁移到视觉任务中,同时保留了优秀的原始文本推理能力,如在 AIME 测试中达到 72.0 分,在 MATH500 测试中达到 94.0 分。
其次,多模态混合式训练(Iterative SFT+GRPO)也是 Skywork R1V 的一大亮点。该技术通过结合迭代监督微调(Iterative SFT)和 GRPO 强化学习,分阶段对齐视觉与文本表征,实现了跨模态任务的高效融合。这种训练方式极大地提升了模型在跨模态任务中的表现,使其在 MMMU 基准测试中达到 69 分,在 MathVista 测试中达到 67.5 分。通过反复迭代地使用高质量数据与高难度数据的组合,模型能够持续巩固知识并纠正错误,显著提升了多模态推理的精度与泛化性能。
最后,自适应长度思维链蒸馏技术为 Skywork R1V 的高效推理提供了有力支持。团队提出了一种基于视觉 - 文本复杂度的自适应推理链长度控制机制,能够动态优化模型的推理过程,避免模型“过度思考”,从而提升推理效率。结合多阶段自蒸馏策略,进一步提升了数据生成与推理过程的质量,促进了模型在复杂多模态任务中的表现。
随着 Skywork R1V 的开源,开发者们将有机会深入了解这一先进的多模态推理模型,并将其应用于各种实际场景中。无论是学术研究还是工业应用,Skywork R1V 都有望为多模态推理领域带来新的突破和发展。