首页 > 资讯AI

Adobe推AI音效生成系统MultiFoley，文字提示生成视频同步音效

文章来源：放心AI网发布时间：2025-05-25 16:37:13

最近，Adobe 研究团队与密歇根大学的研究人员联合开发了一款名为 MultiFoley 的人工智能系统，这款系统能够生成电影和视频中的配音音效，助力后期制作。

MultiFoley 的创新之处在于它允许用户通过文字提示、参考音频或视频示例来创造音效。在演示中，该系统甚至能将猫的叫声转化为狮子的吼叫，或将打字机的声音转换为钢琴音符，并与视频画面完美同步。

MultiFoley 的音频输出质量达到48kHz 的高带宽，这主要得益于研究人员使用互联网上的视频和专业音效库进行训练。与以往的系统不同，MultiFoley 首次将多种输入方式 —— 文本、音频和视频参考 —— 整合到同一模型中。它通过分析每秒8帧的视觉特征，并将其放大以匹配40Hz 的音频采样率，确保生成的音频与视频保持紧密同步。

在测试中，MultiFoley 在音频与视频的同步和音效与文本描述的匹配方面表现出色，平均同步精度达到了0.8秒，显著优于传统系统通常超过一秒的延迟。用户研究显示，85.8% 的参与者认为 MultiFoley 在语义一致性方面优于第二名，而94.5% 的参与者更喜欢它的同步效果。

尽管 MultiFoley 展现出了强大的潜力，但研究团队也指出目前的一些局限性，例如训练数据相对较小，这限制了它的音效种类。同时，系统在生成多个同时音效时也存在一定困难。研究团队计划不久后发布源代码和模型。

虽然 Adobe 尚未宣布将 MultiFoley 纳入其产品中，但这一技术与 Adobe Premiere Pro 视频编辑软件中现有的人工智能功能非常契合，有望为个人创作者和制作公司在音效设计流程中带来便利。

还没开口就知道你要干什么？清华、面壁智能联手打造“更懂你”的AI智能体！

上一篇: 还没开口就知道你要干什么？清华、面壁智能联手打造“更懂你”的AI智能体！

近年来，以ChatGPT为代表的大语言模型掀起了 AI 领域的新浪潮。这些强大的语言模型不仅能理解人类指令，还能制定计划、探索环境并利用工具解决复杂任务，展现出在机器人、个人助理和流程自动化等领域的巨大潜力。

相关攻略更多

热门核心AI更多

最新资讯更多

Numerous.ai

Numerous.ai

核心AI

更新时间：2025-04-29