字节跳动推出新AI模型INFP，让静态人像照片“开口说话”

文章来源：放心AI网发布时间：2025-05-12 12:04:20

近日，字节跳动公司宣布推出一种名为 INFP 的人工智能系统，能够让静态的人物肖像照片通过音频输入实现 “说话” 和反应。与传统技术不同，INFP 无需手动指定说话和倾听的角色，系统可以根据对话的流动自动判断角色。

INFP 的工作流程分为两个主要步骤。第一步，称为 “基于运动的头部模仿”，该系统通过分析人们在对话中的面部表情和头部运动，从视频中提取细节。这些运动数据会被转化为可以用于后续动画的格式，使静态照片能够与原始人物的运动相匹配。

第二步是 “音频引导运动生成”，系统则根据音频输入生成自然的运动模式。研究团队开发了一种 “运动引导器”，该工具通过分析对话双方的音频，创建出说话和倾听的运动模式。随后，名为扩散变换器的 AI 组件对这些模式进行逐步优化，从而生成流畅且真实的运动，完美契合音频内容。

为了对系统进行有效训练，研究团队还建立了一个名为 DyConv 的对话数据集，汇集了200多个小时的真实对话视频。与现有的对话数据库（如 ViCo 和 RealTalk）相比，DyConv 在情感表达和视频质量方面具有独特优势。

字节跳动表示，INFP 在多个关键领域的表现优于现有工具，特别是在与语音匹配的唇部运动、保留个体面部特征以及创造多样化自然动作方面。此外，该系统在生成仅听对话者的视频时同样表现出色。

虽然目前 INFP 仅支持音频输入，研究团队正在探索将系统扩展到图像和文本的可能性，未来目标是能够创建出人物全身的真实动画。然而，考虑到这类技术可能被用于制造虚假视频和传播错误信息，研究团队计划将核心技术限制在研究机构使用，类似于微软对其先进语音克隆系统的管理。

这项技术是字节跳动更广泛 AI 战略的一部分，依托其旗下的热门应用 TikTok 和 CapCut，字节跳动拥有广阔的 AI 创新应用平台。

项目入口:https://grisoon.github.io/INFP/

上一篇: 哈佛大学华人研究员JeffreyWang加盟OpenAI专注模型预训练和推理工作

近日，哈佛大学的华人研究员 Jeffrey Wang 正式加入了 OpenAI，担任基础团队的研究员，专注于模型预训练和推理工作。这一消息引发了广泛关注，OpenAI 的联合创始人兼总裁 Greg Brockman 也在第一时间对 Jeffrey

​字节跳动推出新AI模型INFP，让静态人像照片“开口说话”