阿里通义千问开源啦！新一代全能多模态模型Qwen2.5-Omni来袭

在人工智能领域，多模态模型的发展正以前所未有的速度推进，而阿里云通义千问Qwen团队的最新成果——Qwen2.5-Omni，无疑是这一领域的又一重要里程碑。3月27日，Qwen团队正式宣布推出这一新一代端到端多模态旗舰模型，它不仅能够处理文本、图像、音频和视频等多种输入形式，还能实时生成文本和自然语音合成输出，为用户带来了全新的交互体验。

Qwen2.5-Omni的架构设计极具创新性，其采用的Thinker-Talker架构，将多模态输入处理与语音合成输出完美结合。Thinker模块如同一个智能大脑，能够对输入的多模态信息进行深度处理，生成高层次的语义表征和对应的文本内容。而Talker模块则如同一个发声器官，能够流畅地将Thinker模块生成的语义表征和文本内容转化为自然语音输出。此外，该模型还引入了一种名为TMRoPE（Time-aligned Multimodal RoPE）的新位置编码技术，通过时间轴对齐，实现了视频与音频输入的精准同步，进一步提升了模型在多模态任务中的表现。

在实时交互方面，Qwen2.5-Omni展现出了卓越的性能。它支持分块输入和即时输出，能够实现完全实时的音视频交互，这在以往的多模态模型中是难以想象的。无论是在语音生成的自然性还是稳定性上，Qwen2.5-Omni都超越了许多现有的流式和非流式替代方案。在全模态性能测试中，Qwen2.5-Omni不仅在音频能力上优于类似大小的Qwen2-Audio，还与Qwen2.5-VL-7B保持了同等水平。更令人印象深刻的是，它在端到端语音指令跟随方面表现出色，在MMLU通用知识理解和GSM8K数学推理等基准测试中，其表现与文本输入处理的效果不相上下。

Qwen2.5-Omni在多模态任务中的表现尤为突出。在OmniBench这一多模态任务中，Qwen2.5-Omni达到了SOTA（State-of-the-Art）的表现，超越了类似大小的单模态模型以及封闭源模型，如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在单模态任务中，Qwen2.5-Omni同样表现优异，无论是在语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）还是语音生成（Seed-tts-eval和主观自然听感）等领域，它都展现出了强大的能力。

目前，Qwen2.5-Omni已经在多个平台上开源开放，包括Hugging Face、ModelScope、DashScope和GitHub。用户可以通过这些平台上的Demo体验其互动功能，或是通过Qwen Chat直接发起语音或视频聊天，沉浸式体验Qwen2.5-Omni模型的强大性能。无论是在技术层面还是在用户体验上，Qwen2.5-Omni都为多模态模型的发展树立了新的标杆，预示着人工智能在多模态交互领域的未来发展方向。

Qwen Chat：https://chat.qwenlm.ai
Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub：https://github.com/QwenLM/Qwen2.5-Omni

Demo体验：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

微信扫一扫：分享

相关文章

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

Wayve祭出驾驶界「五维沙盘」：GAIA-2模型可生成五视角视频，模拟「死神来了」级路况

慢增长时代的突围战：快手的AI「换血」能解估值困局吗？

具身智能战国时代：BATJ华为小米千亿押注，中国军团剑指全球AI王座

教育新基建升级！腾讯混元大模型实战课入选「国家队」 首套AI通识课体系发布

发表回复 取消回复

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

教育新基建升级！腾讯混元大模型实战课入选「国家队」首套AI通识课体系发布

发表回复取消回复