文章来源:放心AI网发布时间:2025-05-13 13:17:34
在人工智能领域,文本音频生成技术正逐渐成为研究的热点。最近,研究者们推出了一款名为 TANGOFLUX 的全新模型,该模型在性能和效率上均表现出色。
TANGOFLUX 是一种高效的文本到音频生成模型,拥有515百万个参数,能够在短短3.7秒内生成最长可达30秒的44.1kHz 音频,这一速度让其在单个 A40GPU 上的表现非常出色。
TANGOFLUX主要是特色是可以生成各种音效,例如鸟叫、口哨、爆炸等声音,另外也支持生成音乐不过效果就不那么理想了。
文本音频生成模型的一个主要挑战在于如何创建偏好配对。与大型语言模型(LLMs)不同,文本音频生成模型缺乏可验证的奖励机制或金标准答案。为了解决这个问题,研究团队提出了一种名为 CLAP-Ranked Preference Optimization(CRPO)的新框架。该框架通过迭代生成和优化偏好数据,以提升文本音频生成模型的对齐性能。研究表明,使用 CRPO 生成的音频偏好数据在性能上优于现有的替代方案。
通过这一框架,TANGOFLUX 在多项客观和主观基准测试中都取得了领先的表现。此外,研究团队还决定将所有代码和模型开源,以支持更多人对文本音频生成的研究。对于需要音频生成的应用场景,TANGOFLUX 无疑是一项具有重要意义的技术进展。
在实际效果方面,TANGOFLUX 在音频生成质量上优于其他模型,展现出更清晰的事件声音、更好的事件顺序再现以及更高的音频质量。通过对多个示例的比较,用户可以直观地感受到 TANGOFLUX 在音频生成中的优势。
提示词:人类悠扬的口哨声与自然鸟鸣和谐共存,生成的效果如下:
随着这一新技术的问世,文本到音频生成的应用前景愈加广阔,未来可能会在影视制作、游戏音效等领域发挥重要作用。
项目入口:https://tangoflux.github.io/
相关攻略 更多
最新资讯 更多
超快音效生成模型TangoFlux:仅需3秒钟就能生成30秒长音频
更新时间:2025-05-13
价格战打响!人工智能公司纷纷降价以争夺市场份额
更新时间:2025-05-13
TryOffAnyone:AI试衣反向操作,可提取人物身上穿的衣服
更新时间:2025-05-13
上海启动全新数据采集车队,加速自动驾驶大模型训练进程
更新时间:2025-05-13
百度Web端首页正式上线"AI搜"入口,全面整合文心大模型能力
更新时间:2025-05-13
英伟达2024年斥资10亿美元投资AI初创企业
更新时间:2025-05-13
优刻得模型服务平台UModelVerse全新升级
更新时间:2025-05-13
微软论文再曝OpenAI模型参数?医疗AI评测意外暴露4o-mini只有8B
更新时间:2025-05-13
菜鸟发布L4级无人车GTPro:起售价14.98w续航180公里快充1.5小时
更新时间:2025-05-13
151个上榜!工信部公布人工智能赋能新型工业化典型应用案例名单
更新时间:2025-05-13