闪速！ElevenLabs推Flash语音对话模型：仅75毫秒延迟支持32种语言

文章来源：放心AI网发布时间：2025-05-17 16:48:12

ElevenLabs 于近日正式推出其最新的人声合成模型 Flash，声称这是迄今为止最快的文本转语音（TTS）解决方案，生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手，用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。

Flash 模型分为两个版本，其中 Flash v2仅支持英语，而 Flash v2.5则支持32种语言。使用这两种模型时，用户每生成两个字符将消耗1个积分点。尽管 Flash 模型在音质和情感深度上稍逊于 Turbo 模型，但其低延迟性能使其在盲测中超越了其他同类产品，成为同类模型中速度最快的选择。

ElevenLabs 的技术团队表示，Flash 模型的推出将极大地推动人机交互的流畅度与自然感。开发者可以通过 API 直接调用模型 ID “eleven_flash_v2” 和 “eleven_flash_v2_5”，具体的 API 参考资料可在 ElevenLabs 官网找到。通过这一创新，ElevenLabs 期待能够开启更多低延迟、人性化的对话互动场景。