昆仑万维开源 R1V 视觉思维链推理模型，开启多模态思考新时代

在人工智能领域，多模态推理模型正逐渐成为研究的热点。3 月 18 日，昆仑万维宣布开源其首款工业级多模态思维链推理模型 Skywork R1V，这标志着中国在开源多模态推理模型领域迈出了重要的一步。从即日起，开发者可以通过官方渠道获取模型权重和技术报告，开启对这一先进模型的探索之旅。

视觉推理模型作为多模态推理的重要组成部分，其核心在于能够对视觉信息进行深度的逻辑推理与分析。这类模型不仅能够识别图像中的内容，更能通过多步的逻辑推理，逐步解决复杂的视觉问题。无论是视觉逻辑推理、视觉数学问题的求解，还是对图像中科学现象的分析以及医学影像的诊断推理，视觉推理模型都能发挥其强大的功能。

Skywork R1V 在推理能力方面表现卓越。在权威的 MATH500 和 AIME 基准测试中，该模型分别取得了 94.0 和 72.0 分的优异成绩，展现了其顶尖的逻辑推理与数学分析能力。在视觉理解能力方面，Skywork R1V 也毫不逊色，成功地将其文本推理能力迁移到视觉任务中，在 MMMU 和 MathVista 等视觉推理基准测试中分别获得了 69 分和 67.5 分，与一些更大规模的闭源模型相比也毫不逊色。

昆仑万维的 Skywork R1V 模型之所以能够取得如此出色的成绩，得益于其三项关键技术创新。首先，团队提出了文本推理能力的多模态高效迁移技术。通过利用 Skywork-VL 的视觉投影器，无需重新训练语言模型和视觉编码器，即可将文本推理能力高效迁移到视觉任务中，同时保留了优秀的原始文本推理能力，如在 AIME 测试中达到 72.0 分，在 MATH500 测试中达到 94.0 分。

其次，多模态混合式训练（Iterative SFT+GRPO）也是 Skywork R1V 的一大亮点。该技术通过结合迭代监督微调（Iterative SFT）和 GRPO 强化学习，分阶段对齐视觉与文本表征，实现了跨模态任务的高效融合。这种训练方式极大地提升了模型在跨模态任务中的表现，使其在 MMMU 基准测试中达到 69 分，在 MathVista 测试中达到 67.5 分。通过反复迭代地使用高质量数据与高难度数据的组合，模型能够持续巩固知识并纠正错误，显著提升了多模态推理的精度与泛化性能。

最后，自适应长度思维链蒸馏技术为 Skywork R1V 的高效推理提供了有力支持。团队提出了一种基于视觉 - 文本复杂度的自适应推理链长度控制机制，能够动态优化模型的推理过程，避免模型“过度思考”，从而提升推理效率。结合多阶段自蒸馏策略，进一步提升了数据生成与推理过程的质量，促进了模型在复杂多模态任务中的表现。