随着人工智能技术的不断进步,语音合成领域迎来了新的突破。近期,一款名为 Kokoro 的语音合成模型在 Hugging Face 平台正式亮相,凭借其8200万参数的强大配置,成为了该领域的一个重要里程碑。
在正式发布前,Kokoro v0.19 就已在 TTS(文本转语音)领域的排行榜上崭露头角,稳居榜首。它以不到100小时的音频数据训练,便达到了与参数高达467M的 XTTS v2 和1.2B的 MetaVoice 等模型相媲美的效果,这一成绩令人瞩目。这不仅展示了 Kokoro 的卓越性能,也暗示了传统语音合成模型在性能与参数、计算量和数据量之间的关系可能比我们之前预想的更为紧密。
对于用户来说,Kokoro 的使用体验极为便捷。只需在 Google Colab 中运行简单的代码,就能轻松加载模型和语音包,进而生成高质量的音频输出。目前,Kokoro 支持美国英语和英国英语,并提供了丰富的语音包选项,满足不同用户的需求。
在训练方面,Kokoro 选择了 Vast.ai 的 A100 80GB vRAM 实例进行训练,其租用成本相对较低,有效保障了训练过程的高效性。整个训练过程仅用了不到20个周期,且音频数据量控制在不到100小时,这在业界是相当高效的表现。值得一提的是,Kokoro 在训练中严格使用了公有领域的音频数据以及其他开放许可证的音频,确保了数据使用的合规性。
尽管 Kokoro 在语音合成领域取得了显著成就,但受制于训练数据和架构的局限,它目前还无法支持声音克隆功能。此外,其训练数据主要集中在长篇朗读和叙述,对于对话场景的支持相对有限。
对于想要深入了解或体验 Kokoro 的用户,可以通过以下链接访问模型页面:https://huggingface.co/hexgrad/Kokoro-82M,同时,也可以通过这个链接体验在线演示:https://huggingface.co/spaces/hexgrad/Kokoro-TTS。
重点来了:
🌟 Kokoro-82M,这款新晋的语音合成模型,带着8200万参数和多种语音包强势登场。
🎤 它在 TTS 领域的表现堪称惊艳,曾一度登顶排行榜,仅用不到100小时的音频数据就完成了训练。
📊 Kokoro 采用了开放许可证的数据进行训练,确保了数据的合规性,不过,它在功能上还有一些限制需要克服。