小米大模型团队在音频推理方面干得漂亮，直接冲上国际评测榜首

在人工智能领域，音频理解技术一直是研究的热点和难点。近日，小米大模型团队在这一领域取得了令人瞩目的成就，成功将强化学习算法应用于多模态音频理解任务，并在国际权威的 MMAU 音频理解评测中取得了64.5%的准确率，这一成绩不仅刷新了榜单记录，也标志着音频理解技术迈出了重要的一步。

MMAU 是一个综合性的音频理解评测集，涵盖了语音、环境声和音乐等多种音频类型，旨在通过复杂的推理任务来衡量模型的音频理解能力。此前，人类专家在该评测集上的准确率约为82.23%，而榜单上表现最佳的模型是 OpenAI 的 GPT-4o，其准确率为57.3%。在这样的竞争环境下，小米团队的成果显得尤为突出。

小米团队在实验中采用了 DeepSeek-R1 的 Group Relative Policy Optimization（GRPO）方法。这种方法通过模拟人类的试错学习过程，为模型提供奖励机制，使其能够自主演化并展现出类似人类的推理能力。令人惊讶的是，尽管仅使用了3.8万条训练样本，这一相对较小的数据集规模，小米团队的模型依然能够在 MMAU 评测集上取得64.5%的准确率，比之前的最佳成绩高出近10个百分点。

实验过程中，团队还发现了一个有趣的现象：传统的显式思维链输出方式并未能提升模型的准确率，反而在某些情况下会导致准确率下降。这表明在训练过程中，隐式推理可能比显式推理更具优势。尽管如此，小米团队也清楚地认识到，当前的模型与人类专家水平之间仍存在差距。团队表示将继续优化强化学习策略，以进一步提升模型的推理能力。

此次研究的成功不仅展示了强化学习在音频理解领域的巨大潜力，也为未来智能听觉技术的发展奠定了坚实的基础。随着技术的进步，机器将不再仅仅是“听见”声音，而是能够“听懂”声音背后的因果逻辑。这将为智能音频技术带来新的发展机遇，推动其在更多领域中的应用。

为了促进学术界和产业界的研究与交流，小米团队还计划开源训练代码和模型参数。这一举措将进一步推动音频理解技术的发展，为研究人员和开发者提供宝贵的资源和参考。

训练代码：https://github.com/xiaomi-research/r1-aqa

模型参数：https://huggingface.co/mispeech/r1-aqa

技术报告：https://arxiv.org/abs/2503.11197

交互 Demo：https://120.48.108.147:7860/

微信扫一扫：分享

相关文章

GPT-4时代终结！4月30日全面切换至「全能王」GPT-4o

欧盟委员会出招啦，要搞个AI大计划，目标是当全球AI的领头羊

钢铁巨人暗藏AI杀手锏：宝信软件年赚22亿的工业密码

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

发表回复取消回复