首页 > 扩展AI

Audio2Photoreal

Audio2Photoreal

Audio2Photoreal

类型：扩展AI更新时间：2025-04-16 14:54:53

安全访问

1523

简介信息热门同类推荐

Audio2Photoreal,从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。

大家好~这里是小编！本期【放心AI网-核心AI】带你解锁超实用AI神器，精选全网热门工具，助你一键开启智能新体验！

Meta ai最近发布了一项炸裂的技术：Audio2PhotoReal，从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。

这些生成的虚拟人物不仅在视觉上很逼真，而且能够准确地反映出对话中的手势和表情细节，如指点、手腕抖动、耸肩、微笑、嘲笑等。

Audio2PhotoReal工作原理：

Audio2PhotoReal结合了向量量化的样本多样性和通过扩散获得的高频细节的优势，以生成更具动态性和表现力的动作。

1、数据集捕获：首先捕获了一组丰富的双人对话数据集，这些数据集允许进行逼真的重建。

2、运动模型构建：项目构建了一个包括面部运动模型、引导姿势预测器和身体运动模型的复合运动模型。

3、面部运动生成：使用预训练的唇部回归器处理音频，提取面部运动相关的特征。

利用条件扩散模型根据这些特征生成面部运动。

4、身体运动生成：以音频为输入，自回归地输出每秒1帧的向量量化（VQ）引导姿势。将音频和引导姿势一起输入到扩散模型中，以30帧/秒的速度生成高频身体运动。

5、虚拟人物渲染：将生成的面部和身体运动传入训练好的虚拟人物渲染器，生成逼真的虚拟人物。

6、结果展示：最终展示的是根据音频生成的全身逼真虚拟人物，这些虚拟人物能够表现出对话中的细微表情和手势动作。

Audio2Photoreal项目地址：

https://github.com/facebookresearch/audio2photoreal/

Audio2Photoreal论文地址：

https://arxiv.org/pdf/2401.01885.pdf

今天的AI工具安利就到这里啦！小伙伴们还想看哪些神器？快留言告诉小编，放心AI网-核心AI下期继续带你挖宝！

需要网络免费

资讯AI更多

相关推荐更多

Draw3D

Draw3D

扩展AI

更新时间：2025-04-28

教程推荐

资讯AI 更多