文章来源:放心AI网发布时间:2025-05-21 13:29:10
近日,来自伊利诺伊大学厄巴纳 – 香槟分校、Sony AI 及 Sony 集团公司的研究团队推出了一项名为 MMAudio 的新技术,该技术旨在通过多模态联合训练,实现高质量的视频到音频合成。
MMAudio 的核心创新在于能够利用视频和文本输入生成同步的音频,从而拓展了音频生成的应用场景,支持输入视频或文本,生成符合视频内容的音效。
MMAudio 的设计使其能够在各种视听和音频文本数据集上进行训练。这种多模态联合训练的方式,不仅提高了合成音频的质量,还确保了生成的音频与视频帧之间的同步。这一同步模块的引入,极大地增强了音频生成的精确度,确保了音频和视频内容的一致性。
目前,MMAudio 的代码库仍在建设中,研究人员表示单个示例推理功能已经可以正常使用,而训练代码则将在后续版本中推出。为了便于用户使用,该技术已在 Ubuntu 操作系统上进行测试,并提供了相关的安装指南。用户需要准备 Python3.9及以上版本,以及适当版本的 PyTorch 和 ffmpeg,随后可以通过简单的命令安装 MMAudio。
MMAudio 在生成音频时仍存在一些局限性,比如偶尔会产生不清晰的语音或背景音乐,同时对某些陌生概念的处理也不够理想。研究团队认为,增加高质量的训练数据能够帮助解决这些问题。随着研究的不断推进,MMAudio 有望在未来进一步优化其性能。
试玩:https://huggingface.co/spaces/hkchengrex/MMAudio
代码:https://github.com/hkchengrex/MMAudio
相关攻略 更多
最新资讯 更多
AI音频新技术MMAudio:输入视频或文本可自动给视频配音效
更新时间:2025-05-21
百度文库上线「专业PPT生成」AI功能:支持一键生成高质量PPT
更新时间:2025-05-21
公安部曝光AI造谣新犯罪:6人批量发布50万篇引流虚假信息
更新时间:2025-05-21
哈佛大学将发布由OpenAI和微软资助的海量免费AI训练数据集
更新时间:2025-05-21
畅销书作家称AI加速了图书出版的衰退
更新时间:2025-05-21
Adobe年度业绩不如预期,AI崛起或夺走市场份额!
更新时间:2025-05-21
AIAgent初创公司RapidCanvas获得1600万美元融资,助力解决技术人才短缺问题
更新时间:2025-05-21
AI写作平台Writingtools.ai再升级!“自动发布”功能上线,内容创作进入新纪元
更新时间:2025-05-21
巨人网络发布“千影”有声游戏大模型!AI赋能游戏创作,人人皆可成“游戏开发者”
更新时间:2025-05-21
中国人寿注册AI大模型服务平台商标
更新时间:2025-05-21