Kokoro-TTS这小型文本转语音模型，以前拿过TTS排行榜第一呢

随着人工智能技术的不断进步，语音合成领域迎来了新的突破。近期，一款名为 Kokoro 的语音合成模型在 Hugging Face 平台正式亮相，凭借其8200万参数的强大配置，成为了该领域的一个重要里程碑。

在正式发布前，Kokoro v0.19 就已在 TTS（文本转语音）领域的排行榜上崭露头角，稳居榜首。它以不到100小时的音频数据训练，便达到了与参数高达467M的 XTTS v2 和1.2B的 MetaVoice 等模型相媲美的效果，这一成绩令人瞩目。这不仅展示了 Kokoro 的卓越性能，也暗示了传统语音合成模型在性能与参数、计算量和数据量之间的关系可能比我们之前预想的更为紧密。

对于用户来说，Kokoro 的使用体验极为便捷。只需在 Google Colab 中运行简单的代码，就能轻松加载模型和语音包，进而生成高质量的音频输出。目前，Kokoro 支持美国英语和英国英语，并提供了丰富的语音包选项，满足不同用户的需求。

在训练方面，Kokoro 选择了 Vast.ai 的 A100 80GB vRAM 实例进行训练，其租用成本相对较低，有效保障了训练过程的高效性。整个训练过程仅用了不到20个周期，且音频数据量控制在不到100小时，这在业界是相当高效的表现。值得一提的是，Kokoro 在训练中严格使用了公有领域的音频数据以及其他开放许可证的音频，确保了数据使用的合规性。

尽管 Kokoro 在语音合成领域取得了显著成就，但受制于训练数据和架构的局限，它目前还无法支持声音克隆功能。此外，其训练数据主要集中在长篇朗读和叙述，对于对话场景的支持相对有限。

对于想要深入了解或体验 Kokoro 的用户，可以通过以下链接访问模型页面：https://huggingface.co/hexgrad/Kokoro-82M，同时，也可以通过这个链接体验在线演示：https://huggingface.co/spaces/hexgrad/Kokoro-TTS。

重点来了：

🌟 Kokoro-82M，这款新晋的语音合成模型，带着8200万参数和多种语音包强势登场。

🎤 它在 TTS 领域的表现堪称惊艳，曾一度登顶排行榜，仅用不到100小时的音频数据就完成了训练。

📊 Kokoro 采用了开放许可证的数据进行训练，确保了数据的合规性，不过，它在功能上还有一些限制需要克服。

微信扫一扫：分享

相关文章

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

Wayve祭出驾驶界「五维沙盘」：GAIA-2模型可生成五视角视频，模拟「死神来了」级路况

慢增长时代的突围战：快手的AI「换血」能解估值困局吗？

具身智能战国时代：BATJ华为小米千亿押注，中国军团剑指全球AI王座

教育新基建升级！腾讯混元大模型实战课入选「国家队」 首套AI通识课体系发布

发表回复 取消回复

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

教育新基建升级！腾讯混元大模型实战课入选「国家队」首套AI通识课体系发布

发表回复取消回复