SadTalker:Stylized Audio( 六 )


消融实验 。我们根据运动多样性和音频节拍对齐来评估提出的 。如表4所示,基线的[9]在姿态评估中表现也较差 。至于我们的变体,由于我们的方法包含几个身份风格标签,为了更好地评估其他组件,我们首先考虑对我们的完整方法进行评估(,fixed style)的固定单热风格进行烧蚀研究 。我们设置中的每个条件都有利于在多样性和节拍对齐方面的整体运动质量 。我们进一步报告了我们的完整方法的混合风格的结果,该方法使用随机选择的身份标签作为风格,也显示出更好的多样性性能 。由于姿态差异在图中难以显示,请参考我们的补充资料进行更好的对比 。
图9 。面部渲染的消融研究 。在第一行中,我们直接将我们的方法与[31]进行面部动画比较,我们的方法显示了更好的表情建模 。第二行是由相同运动系数生成的面部标志的轨迹图 。使用额外的面部对准系数作为运动系数[31]的一部分将产生不现实的对准头部视频 。
面部渲染消融消融实验 。我们从两个方面对所提出的面部渲染进行消融研究 。一方面,我们用[31]显示方法的重建质量,因为这两种方法都使用3DMM作为中间表示 。如图9的第一行所示,由于稀疏无监督关键点的映射,所提出的人脸渲染具有更好的表情重构质量 。其中精确的表达式映射也是实现唇同步的关键 。此外,我们还评估了[31]中使用的附加对齐系数引起的姿态不自然性 。如图9的第二行所示,我们绘制了生成视频中具有相同头部姿态和表情系数的地标的轨迹图 。使用固定的或可学习的作物系数(作为我们中的姿态系数的一部分)将生成面部对齐的视频,这作为自然视频来说很奇怪 。我们将其去掉,直接使用头部姿态和表情作为调制参数,得到了更加真实的结果 。
图10 。局限性 。在一些例子中,我们的方法可能会在嘴唇区域显示一些牙齿伪影,可以通过面部修复网络,即[41]进行改进 。
4.5 局限性
虽然我们的方法从单个图像和音频生成真实的视频,但我们的系统仍然存在一些局限性 。由于3dmm不能模拟眼睛和牙齿的变化,在某些情况下,我们的面部渲染中的也将难以合成真实的牙齿 。这种限制可以通过如图10所示的盲脸恢复网络[41]来改善 。我们工作的另一个局限性是我们只关注嘴唇运动和眨眼,而不关注其他面部表情,如情绪和注视方向 。因此,生成的视频具有固定的情感,这也降低了生成内容的真实感 。我们认为这是未来的工作 。
5. 总结
在本文中,我们提出了一种新的程式化音频驱动的说话头视频生成系统 。我们使用3DMM的运动系数作为中间表示,并学习它们之间的关系 。为了从音频中生成逼真的3D系数,我们提出了和来实现逼真的表情和不同的头部姿势 。为了模拟3DMM运动系数与真实视频之间的关系,我们受到图像动画方法[40]的启发,提出了一种新颖的3d感知人脸渲染方法 。实验证明了该框架的优越性 。由于我们预测了逼真的三维人脸系数,我们的方法也可以直接用于其他模式,即个性化的2D视觉配音[43],2D卡通动画[49],3D人脸动画[7]和基于nerf的4D说话头生成[14] 。
道德考虑 。我们考虑了所提出的方法的误用,因为它可以从单个人脸图像生成非常逼真的视频 。生成的视频中同时插入可见和不可见视频水印,用于生成内容识别,类似于Dall-E[30]和[32] 。我们也希望我们的方法能在伪证鉴定领域提供新的研究样本 。
参考
[1]Blanz andV etter. Amodel for theof 3d faces. In ACM , 1999. 2, 3
[2] Lele Chen, Ross K ,Duan, andXu.cross-modalfacewithpixel-wise loss. In CVPR, 2019. 2
[3]Deng, Jia Guo,Xue, and.:loss for deep face . In CVPR, 2019. 5