678CHAT AI资讯阿里云发布两款语音模型，识别能力超OpenAI Whisper

阿里云发布两款语音模型，识别能力超OpenAI Whisper

作者: 678chat 发布: 2024 年 7 月 9 日 389阅读 0评论

7月9日，阿里云通义千问团队宣布开源两款先进的语音技术模型，分别为SenseVoice和CosyVoice，这标志着语音识别和语音生成技术的又一重大突破。

SenseVoice模型以其卓越的多语言语音识别能力而著称，其训练数据量超过40万小时，覆盖超过50种语言，识别精度超越了业界知名的Whisper模型。

在多语言识别领域，SenseVoice展现出了其强大的跨语言能力，无论是中文、英语还是其他小语种，均能实现精准识别。
模型的富文本识别功能同样令人瞩目，它不仅能够识别语音中的情感色彩，还能检测出背景音乐、掌声、笑声等多种声音事件，为语音分析提供了更多维度的信息。
SenseVoice-Small模型的高效推理能力尤为突出，其非自回归端到端框架设计，使得10秒音频的推理时间仅需70毫秒，速度是Whisper-Large的15倍。
此外，SenseVoice还提供了便捷的微调脚本和策略，使用户能够根据具体的业务需求，轻松解决长尾样本问题，实现模型的个性化定制。
在服务部署方面，SenseVoice提供了完整的部署方案，支持多并发请求处理，且客户端语言支持广泛，包括Python、C++、HTML、Java和C#等。

在与现有开源情感识别模型的对比测试中，SenseVoice-Large模型在几乎所有测试数据集上均取得了最佳性能，而SenseVoice-Small模型也在多数数据集上超越了其他开源模型。

CosyVoice模型则专注于语音生成领域，支持多语言、音色和情感的精细控制，特别在多语言语音生成、零样本语音生成、跨语言语音克隆以及指令跟随等方面表现出色，为语音合成技术的发展注入了新的活力。

这两款模型的开源，无疑将推动语音技术在更多领域的应用和发展，为开发者和企业提供了强大的工具和平台。

更多关于SenseVoice和CosyVoice的信息，可以访问以下链接：

SenseVoice: https://github.com/FunAudioLLM/SenseVoice

CosyVoice: https://github.com/FunAudioLLM/CosyVoice

本文来自网络，不代表678CHAT立场，转载请注明出处：https://www.678chat.com/ai/1169.html

87赞

标签:OpenAI 阿里云

发表回复取消回复