在人工智能领域,音频理解技术一直是研究的热点和难点。近日,小米大模型团队在这一领域取得了令人瞩目的成就,成功将强化学习算法应用于多模态音频理解任务,并在国际权威的 MMAU 音频理解评测中取得了64.5%的准确率,这一成绩不仅刷新了榜单记录,也标志着音频理解技术迈出了重要的一步。
MMAU 是一个综合性的音频理解评测集,涵盖了语音、环境声和音乐等多种音频类型,旨在通过复杂的推理任务来衡量模型的音频理解能力。此前,人类专家在该评测集上的准确率约为82.23%,而榜单上表现最佳的模型是 OpenAI 的 GPT-4o,其准确率为57.3%。在这样的竞争环境下,小米团队的成果显得尤为突出。
小米团队在实验中采用了 DeepSeek-R1 的 Group Relative Policy Optimization(GRPO)方法。这种方法通过模拟人类的试错学习过程,为模型提供奖励机制,使其能够自主演化并展现出类似人类的推理能力。令人惊讶的是,尽管仅使用了3.8万条训练样本,这一相对较小的数据集规模,小米团队的模型依然能够在 MMAU 评测集上取得64.5%的准确率,比之前的最佳成绩高出近10个百分点。
实验过程中,团队还发现了一个有趣的现象:传统的显式思维链输出方式并未能提升模型的准确率,反而在某些情况下会导致准确率下降。这表明在训练过程中,隐式推理可能比显式推理更具优势。尽管如此,小米团队也清楚地认识到,当前的模型与人类专家水平之间仍存在差距。团队表示将继续优化强化学习策略,以进一步提升模型的推理能力。
此次研究的成功不仅展示了强化学习在音频理解领域的巨大潜力,也为未来智能听觉技术的发展奠定了坚实的基础。随着技术的进步,机器将不再仅仅是“听见”声音,而是能够“听懂”声音背后的因果逻辑。这将为智能音频技术带来新的发展机遇,推动其在更多领域中的应用。
为了促进学术界和产业界的研究与交流,小米团队还计划开源训练代码和模型参数。这一举措将进一步推动音频理解技术的发展,为研究人员和开发者提供宝贵的资源和参考。
训练代码:https://github.com/xiaomi-research/r1-aqa
模型参数:https://huggingface.co/mispeech/r1-aqa
技术报告:https://arxiv.org/abs/2503.11197
交互 Demo:https://120.48.108.147:7860/