在人工智能领域,视觉语言模型(VLM)一直是研究的热点。然而,尽管这些模型在图像识别方面取得了显著进展,但在复杂的视觉推理任务中仍然面临挑战。最近,Groundlight 研究团队取得了一项重大突破,他们开源了一套创新的 AI 框架,旨在让 AI 不仅能够“看图识物”,还能像侦探一样从图像中推理出深层次的信息。
目前,AI 在识别动物等简单图像任务上已经相当成熟,但在理解图像背后的逻辑关系时却常常力不从心。Groundlight 的研究人员指出,现有的 VLM 在理解图像本身尚且不足,更难以完成需要深度解读的任务。虽然大型语言模型(LLM)在文本推理方面取得了巨大进展,但视觉领域的类似突破仍然有限。仅仅识别图像中的物体是远远不够的,理解物体之间的关系和上下文信息才是关键。
强化学习助力,GRPO 打造“推理高手”
为了提升 VLM 的视觉推理能力,Groundlight 的研究团队采用了强化学习方法,并创新性地利用了 GRPO(Gradient Ratio Policy Optimization)来提高学习效率。GRPO 通过比较多个输出而非依赖直接梯度计算来优化学习过程,这为训练带来了更高的稳定性。通过为每个查询生成多个响应并相互评估,这种方法实现了更平滑的学习曲线。
为了验证他们的方法,研究人员设计了一个需要同时处理视觉和文本信息的密码破译任务。模型需要使用一个随机生成的解码器图像来解读编码信息。最终,一个仅有 30 亿参数的模型就达到了 96% 的准确率!注意力分析表明,模型在解决任务时能够积极地参与视觉输入,专注于相关的解码器区域。
然而,使用 GRPO 训练 VLM 并非一帆风顺,尤其是在分词(tokenization)和奖励设计方面。由于模型通常将文本处理为词元(tokens)而非单个字符,因此对于需要精确字符级别推理的任务来说可能会遇到困难。为了缓解这个问题,研究人员在消息的字母之间添加了空格,以简化解码过程。
奖励设计是另一个至关重要的环节,因为强化学习模型需要结构良好的反馈才能有效地学习。研究人员使用了三种奖励类型:格式奖励,确保输出的一致性;解码奖励,鼓励对乱码文本进行有意义的转换;以及正确性奖励,提高准确性。通过仔细平衡这些奖励,研究人员成功避免了模型学习到意外的“捷径”,确保其真正提高了密码破译能力。
这项研究强调了 VLM 在基于推理的任务中的潜力,但也承认了复杂视觉模型带来的高昂计算成本。为了解决效率问题,他们提出了选择性模型升级等技术,即仅在模糊不清的情况下才使用更昂贵的模型。此外,他们还建议集成预训练的物体检测、分割和深度估计模型,以在不显著增加计算开销的情况下增强推理能力。这种基于工具的方法为训练大型端到端模型提供了一种可扩展的替代方案,强调效率与准确性并重。
Groundlight 团队通过集成强化学习技术,特别是 GRPO,在增强 VLM 方面取得了显著的进展。他们在一个密码破译任务中测试了他们的方法,模型展现出了令人印象深刻的准确性。这一成果不仅为视觉语言模型的发展提供了新的思路,也为未来 AI 在更复杂任务中的应用奠定了基础。
项目:https://github.com/groundlight/r1_vlm
demo:https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder