文章来源:放心AI网发布时间:2025-05-08 13:53:14
在人工智能的快速发展中,语音合成技术正日益受到关注。近日,名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布,该模型具有8200万参数,标志着语音合成领域的一个重要里程碑。
Kokoro v0.19在发布之前的几周里,在 TTS(文本转语音)领域的排行榜上位列第一,其表现甚至超过了其他参数更多的模型。这一模型在单声道设置下,仅用不到100小时的音频数据,便实现了与467M 参数的 XTTS v2和1.2B 参数的 MetaVoice 等模型相媲美的效果。这一成就表明,传统语音合成模型的性能与参数、计算量和数据量之间的关系,可能比以往预期的更加显著。
在使用上,用户只需在 Google Colab 中运行几行代码,即可加载模型和语音包,生成高质量的音频。Kokoro 目前支持美国英语和英国英语,并提供了多个语音包供用户选择。
Kokoro 的训练过程使用了 Vast.ai 的 A10080GB vRAM 实例,租用成本相对较低,确保了高效的训练过程。整个模型的训练仅使用了不到20个训练周期和不到100小时的音频数据。Kokoro 模型在训练中使用了公有领域的音频数据以及其他开放许可证的音频,确保了数据的合规性。
尽管 Kokoro 在语音合成方面表现出色,但由于其训练数据和架构的限制,目前尚无法支持声音克隆,并且主要的训练数据集中在长篇朗读和叙述,而非对话。
模型:https://huggingface.co/hexgrad/Kokoro-82M
体验:https://huggingface.co/spaces/hexgrad/Kokoro-TTS
相关攻略 更多
最新资讯 更多
小型文本转语音模型Kokoro-TTS,曾拿下TTS排行榜第一
更新时间:2025-05-08
苹果在上海设立技术公司,AI进入中国市场步伐加快
更新时间:2025-05-08
AI掠夺艺术作品?英国作家怒斥政府AI政策为“盗窃”
更新时间:2025-05-08
科大讯飞发布讯飞星火深度推理模型X1
更新时间:2025-05-08
全新VideoRAG框架:利用视频内容提升查询响应的准确性
更新时间:2025-05-08
OpenAI推出自动化任务功能,AI管家时代即将来临
更新时间:2025-05-08
讯飞星火4.0Turbo七大核心能力升级:数学、代码能力超GPT-4o
更新时间:2025-05-08
ChatGPT智能体来了!上线“Tasks”功能:智能处理提醒和待办事项
更新时间:2025-05-08
科大讯飞星火同传语音大模型发布:达到人类专家译员水平
更新时间:2025-05-08
苹果、阿里巴巴与赛诺赛斯加入AI基础设施标准委员会
更新时间:2025-05-08