文章来源:放心AI网发布时间:2025-04-28 11:36:43
字节跳动的研究团队近日开发出一款名为 OmniHuman 的人工智能系统,能够将单张照片转化为逼真的视频,展示人物的讲话、歌唱以及自然的动作。这一突破性技术有望彻底改变数字娱乐和通讯领域。
OmniHuman 能够生成全身视频,展现人物在讲话时的手势和动态,超越了以往仅能动画面部或上半身的 AI 模型。这项技术的核心在于,它结合了文本、音频和人体动作等多种输入,通过一种称为 “全条件” 训练的创新方法,使得 AI 能够从更大、更丰富的数据集中学习。
研究团队指出,OmniHuman 经过超过18700小时的人类视频数据训练,表现出了显著的进步。通过引入多种条件信号(例如文本、音频和姿势),这项技术不仅提升了视频生成的质量,还有效减少了数据的浪费。
研究人员在一篇发表在 arXiv 的论文中提到,尽管近年来人类动画的端到端技术取得了显著进展,现有方法在扩大应用规模方面仍存在局限性。
OmniHuman 的应用潜力广泛,可以用于制作演讲视频、演示乐器演奏等。经过测试,该技术在多个质量基准上均优于现有系统,显示出其卓越的性能。这一发展出现在 AI 视频生成技术日益竞争激烈的背景下,谷歌、Meta 和微软等公司也在积极追逐类似技术。
然而,尽管 OmniHuman 为娱乐制作、教育内容创作及数字通讯带来了变革的可能,但也引发了关于合成媒体潜在误用的担忧。研究团队将在即将召开的计算机视觉会议上展示他们的研究成果,虽然具体的时间和会议尚未公布。
论文:https://arxiv.org/pdf/2502.01061
上一篇: OpenAI扩展ChatGPT与WhatsApp集成:图片、语音全面支持
近日,OpenAI 宣布其人工智能聊天助手 ChatGPT 与 WhatsApp 的集成得到了进一步扩展,增加了多项新功能,使得用户在 WhatsApp 上的体验更加丰富。现在,用户可以通过 WhatsApp 聊天发送图片,为 ChatGPT 的回答提
下一篇: DeepSeek大模型引爆市场:概念股开盘集体涨停
2月5日,A股市场开盘后,DeepSeek 概念股集体爆发,每日互动、美格智能、天娱数科、航锦科技、南威软件等多只股票竞价涨停。此外,飞利信、万兴科技、昆仑万维、海光信息等个股也涨幅靠前。这一市场热潮的背后,
相关攻略 更多
最新资讯 更多
好未来MathGPT“出圈”2025财年第三季度净营收达超6亿美元
更新时间:2025-04-29
AI语音独角兽ElevenLabs完成2.5亿美元C轮融资,估值突破30亿
更新时间:2025-04-29
百川智能推出国内首个全场景深度思考医疗大模型,革新医学推理方式
更新时间:2025-04-29
奥特曼加码长寿科技:RetroBiosciences欲筹10亿美元,挑战人类寿命极限
更新时间:2025-04-29
OpenAI新成立的PBC部门估值达300亿美元,微软投资股份尚未确定
更新时间:2025-04-29
扎克伯格表示,2025年底Meta将拥有130万个用于AI的GPU
更新时间:2025-04-29
德勤:企业在推行生成式AI项目上面临规模化挑战
更新时间:2025-04-29
AI基础设施争夺战愈演愈烈:OpenAI与微软的微妙关系
更新时间:2025-04-29
聊天机器人平台CharacterAI以第一修正案为由申请驳回与青少年自杀案的诉讼
更新时间:2025-04-29
Deezer日均上传超万首AI音乐,平台开始检测与标记
更新时间:2025-04-29