SadTalker：Stylized Audio( 四 ) _视频

3.3 3d感知面部渲染
图5 。提出的及与[40]的比较。给定源图像I s I_sIs?和驱动图像I d I_dId?, 在无监督的三维关键点空间X c X_cXc?、X s X_sXs?和X d X_dXd?中生成运动。然后通过外观A 0 A_0A0?和关键点生成图像。由于我们没有驾驶图像，我们使用显式解纠缠的3DMM系数作为代理，并将其映射到无监督的3D关键点空间。
在生成逼真的3D运动系数后，我们通过一个设计良好的3D感知图像动画器渲染最终的视频。我们从最近的图像动画方法face-[40]中得到灵感，因为它隐式地从单张图像中学习3D信息。然而，在他们的方法中，需要一个真实的视频作为运动驱动信号。我们的面部渲染使它可以通过3DMM系数驾驶。如图5所示，我们提出来学习显式3DMM运动系数(头姿和表情)与隐式无监督3D关键点之间的关系。我们的是通过几个一维卷积层构建的。我们使用时间窗口的时间系数作为[31]进行平滑。不同的是，我们发现中的人脸对齐运动系数将极大地影响音频驱动视频生成的运动自然度，并提供了第4.4节中的实验。我们只使用表达式和头的系数姿势。对于训练，我们的方法包含两个步骤。首先，我们像原论文一样，以自监督的方式训练face-[40] 。在第二步中，我们冻结外观编码器、标准关键点估计器和图像生成器的所有参数以进行调优。然后，以重建的方式对地面实况视频的3DMM系数进行训练。我们利用L 1 L_1L1?损耗对无监督关键点进行监督，并在原始实现的基础上生成最终的视频。更多细节可以在补充资料中找到。
4 实验 4.1 实现细节和度量
数据集。我们使用V [25]数据集进行训练，其中包含1251个受试者的超过100k个视频。我们按照前面的图像动画方法[34]裁剪原始视频，并将视频大小调整为256×256 。预处理后，数据用于训练我们的。由于一些视频和音频在V 中没有对齐，我们选择了46个科目的1890个对齐的视频和音频来训练我们的PoseV AE和。输入音频被降采样到16kHz，并转换为与[28]设置相同的mel-频谱图。为了测试我们的方法，我们使用了来自HDTF数据集[46]的346个视频的前8秒视频(总共约70k帧)，因为它包含高分辨率和野外说话的头部视频。这些视频也按照[34]进行裁剪和处理，并将大小调整为256 ×256以供评估。我们使用每个视频的第一帧作为参考图像来生成视频
实现细节。, PoseV AE和都是单独训练的，我们使用Adam优化器[19]进行所有实验。经过训练后，我们的方法可以在没有任何人工干预的情况下以端到端方式进行推断。通过预训练的深度三维人脸重建方法[4]提取所有的3DMM参数。所有实验均在8个A100图形处理器上进行。、PoseV AE和的学习速率分别为2e?5、1e?4和2e?4 。从时间上考虑，使用连续5帧进行学习。是通过连续32帧学习的。中的帧是逐帧生成的，为了稳定，系数为5连续帧。
评价指标。我们证明了我们的方法在多个指标上的优越性，这些指标在以前的研究中被广泛使用。我们采用(FID)[12,33]和累积概率模糊检测(CPBD)[26]来评估图像质量，其中FID用于评估生成帧的真实感，CPBD用于评估生成帧的锐度。为了评估身份保留，我们计算源图像与生成帧之间的身份嵌入的余弦相似度(CSIM)，其中我们使用[3]来提取图像的身份嵌入。为了评估嘴唇同步和嘴型，我们从[28]中评估了嘴型的感知差异，包括距离评分(LSE-D)和置信度评分(LSE-C) 。我们还进行了一些度量来评估生成帧的头部运动。对于生成的头部运动的多样性，使用[27]计算从生成的帧中提取的头部运动特征嵌入的标准差。对于音频和生成的头部运动的对齐，我们计算节拍对齐分数，如 [21] 。