SadTalker:Stylized Audio

摘要
通过人脸图像和一段语音音频生成会说话的头部视频仍然存在许多挑战 。例如,不自然的头部运动,扭曲的表情和身份修改 。我们认为这些问题主要是因为从耦合的二维运动场中学习 。另一方面,显式使用3D信息也存在表达生硬和视频不连贯的问题 。我们提出了,它从音频中生成3DMM的3D运动系数(头部姿势,表情),并隐式调制了一种新颖的3D感知面部渲染,用于说话的头部生成 。为了学习真实的运动系数,我们明确地分别模拟音频和不同类型的运动系数之间的联系 。准确地说,我们提出通过提取系数和3d渲染的面部来从音频中学习准确的面部表情 。对于头部姿势,我们通过一个有条件的VAE来设计来合成不同风格的头部运动 。最后,将生成的三维运动系数映射到所提出的人脸渲染的无监督三维关键点空间,并合成最终的视频 。我们进行了大量的实验,以证明我们的方法在运动和视频质量方面的优越性 。
图1 。该系统通过输入音频和单一参考图像生成多样、逼真、同步的对话视频 。
1. 介绍
用语音音频制作静态人像图像是一项具有挑战性的任务,在数字人类创造、视频会议等领域有许多重要的应用 。以往的研究主要集中在唇动的生成[2,28,29,48],因为唇动与言语有很强的联系 。最近的工作还旨在生成一个包含其他相关动作的逼真的谈话面部视频,例如,头部姿势 。他们的方法主要是通过地标[49]和潜在翘曲引入二维运动场[37,38] 。但是生成的视频质量仍然不自然,受到偏好pose[16,48]、月模糊[28]、身份修改[37,38]、扭曲脸[37,38,46]的限制 。
生成一个自然的说话头视频包含许多挑战,因为音频和不同动作之间的连接是不同的 。也就是说,嘴唇运动与音频的联系最强,但音频可以通过不同的头部姿势和眨眼来传达 。因此,以往基于面部标记的方法[2,49]和基于2D流的音频到表情网络[37,38]可能会产生扭曲的面部,因为头部运动和表情在其表示中没有完全解离 。另一种流行的方法是基于潜能的人脸动画[16,28,48] 。他们的方法主要针对说话人脸动画中的特定动作,难以合成高质量的视频 。我们观察到,3D面部模型包含高度去耦的表示,可用于单独学习每种类型的运动 。虽然在[46]中讨论了类似的观察结果,但他们的方法也会产生不准确的表情和不自然的动作序列 。
【SadTalker:Stylized Audio】基于上述观察,我们提出了一种通过隐式三维系数调制的程式化音频驱动的说话头视频生成系统 。为了实现这一目标,我们将3DMM的运动系数作为中间表示,并将我们的任务分为两个主要部分 。一方面,我们的目标是从音频中生成逼真的运动系数(例如,头部姿势,嘴唇运动和眨眼),并单独学习每个运动以减少不确定性 。对于表情,我们设计了一个新的音频-表情系数网络,通过提取唇动系数[28]和重构的3d面部[4]上的感知损失(唇读损失[1],面部标志损失) 。对于程式化的头部姿态,采用条件VAE[5]算法,通过学习给定姿态的残差来模拟头部运动的多样性和逼真性 。在生成逼真的3DMM系数后,我们通过新颖的3d感知面部渲染来驱动源图像 。受face-[40]的启发,我们学习了显式3DMM系数与无监督3D关键点域之间的映射 。然后,通过源和驱动的无监督三维关键点生成弯曲场,对参考图像进行弯曲,生成最终视频 。我们分别训练了表情生成、头部姿态生成和面部渲染的每个子网络,我们的系统可以以端到端方式进行推断 。在实验中,几个指标显示了我们的方法在视频和运动方法方面的优势 。
本文的主要贡献可以总结为:
2. 相关工作
音频驱动的单图像说话脸生成 。早期的工作[28,29]主要是利用感知鉴别器产生准确的唇动 。由于真实视频中包含许多不同的动作,[2]使用面部地标作为中间表示来生成视频帧 。[49]提出了一种类似的方法,不同的是,它从输入音频信号中分离出内容和扬声器信息 。由于面部标志仍然是一个高度耦合的空间,在解纠缠的空间中生成说话的头部也是最近很流行的 。PC-AVS[48]使用隐式潜码解出头部姿势和表情 。然而,它只能产生低分辨率的图像,需要来自另一个视频的控制信号 。[37]和Wang等[38]从视频驱动的方法[34]中得到灵感,制作了会说话的头脸 。然而,这些头部运动仍然不生动,并产生扭曲的面部,无法准确识别 。虽然已有文献[31,46]使用3dmm作为中间表示,但其方法仍面临表达式不准确[31]和明显伪影[46]的问题 。