小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

文章来源：放心AI网发布时间：2025-05-08 13:53:14

在人工智能的快速发展中，语音合成技术正日益受到关注。近日，名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布，该模型具有8200万参数，标志着语音合成领域的一个重要里程碑。

Kokoro v0.19在发布之前的几周里，在 TTS（文本转语音）领域的排行榜上位列第一，其表现甚至超过了其他参数更多的模型。这一模型在单声道设置下，仅用不到100小时的音频数据，便实现了与467M 参数的 XTTS v2和1.2B 参数的 MetaVoice 等模型相媲美的效果。这一成就表明，传统语音合成模型的性能与参数、计算量和数据量之间的关系，可能比以往预期的更加显著。

在使用上，用户只需在 Google Colab 中运行几行代码，即可加载模型和语音包，生成高质量的音频。Kokoro 目前支持美国英语和英国英语，并提供了多个语音包供用户选择。

Kokoro 的训练过程使用了 Vast.ai 的 A10080GB vRAM 实例，租用成本相对较低，确保了高效的训练过程。整个模型的训练仅使用了不到20个训练周期和不到100小时的音频数据。Kokoro 模型在训练中使用了公有领域的音频数据以及其他开放许可证的音频，确保了数据的合规性。

尽管 Kokoro 在语音合成方面表现出色，但由于其训练数据和架构的限制，目前尚无法支持声音克隆，并且主要的训练数据集中在长篇朗读和叙述，而非对话。

模型:https://huggingface.co/hexgrad/Kokoro-82M

体验:https://huggingface.co/spaces/hexgrad/Kokoro-TTS