Audio2Photoreal：音频生成逼真的虚拟人物-熠熠码AI工具导航

Audio2Photoreal简介

Meta ai最近发布了一项炸裂的技术：Audio2PhotoReal，从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。

这些生成的虚拟人物不仅在视觉上很逼真，而且能够准确地反映出对话中的手势和表情细节，如指点、手腕抖动、耸肩、微笑、嘲笑等。

Audio2PhotoReal工作原理：

Audio2PhotoReal结合了向量量化的样本多样性和通过扩散获得的高频细节的优势，以生成更具动态性和表现力的动作。

1、数据集捕获：首先捕获了一组丰富的双人对话数据集，这些数据集允许进行逼真的重建。

2、运动模型构建：项目构建了一个包括面部运动模型、引导姿势预测器和身体运动模型的复合运动模型。

3、面部运动生成：使用预训练的唇部回归器处理音频，提取面部运动相关的特征。

利用条件扩散模型根据这些特征生成面部运动。

4、身体运动生成：以音频为输入，自回归地输出每秒1帧的向量量化（VQ）引导姿势。将音频和引导姿势一起输入到扩散模型中，以30帧/秒的速度生成高频身体运动。

5、虚拟人物渲染：将生成的面部和身体运动传入训练好的虚拟人物渲染器，生成逼真的虚拟人物。

6、结果展示：最终展示的是根据音频生成的全身逼真虚拟人物，这些虚拟人物能够表现出对话中的细微表情和手势动作。

Audio2Photoreal项目地址：https://github.com/facebookresearch/audio2photoreal/

Audio2Photoreal论文地址：https://arxiv.org/pdf/2401.01885.pdf

一键抠图，一个完全免费的AI绘画工具，操作简单，不限制生成次数，打开之后直接输入文字描述，就可以生成图片了，也可以上传图片作为参考图。

轻松换脸和创建头像，没有水印或滤镜。

ClipDrop，P图、抠图、移除背景、放大图片、文本删除、绘制图片，一个工具全搞定。无需安装，在线免费使用。

一款由人工智能驱动的编辑器，将你的内容从普通变为非凡，让你的文字更具吸引力、说服力和影响力。

Lyria是Google DeepMind与YouTube合作推出的最新AI音乐生成模型，可以从文本中创作高质量音乐，包括乐器和人声。

TryOnDiffusion就谷歌推出的一项新虚拟试穿功能，能够实现高度逼真的虚拟试穿，用户能够直观地看到不同体型的人穿着不同尺寸的衣服效果如何。

暂无评论...