SadTalker：Stylized Audio( 二 ) _视频

音频驱动的视频肖像。我们的任务还涉及到视觉配音，目的是通过音频编辑人像视频。与音频驱动的单图像语音人脸生成不同，该任务通常需要在特定视频上进行训练和编辑。在深度视频人像[18]的基础上，这些方法利用3DMM信息进行人脸重建和动画。[43]，NVP [36]，AD-NeRF[10]学习重现表情编辑嘴型。除了嘴唇运动，即头部运动[22,45]，情绪性谈话的面部[17]也得到关注。基于3DMM的方法在这些任务中发挥了重要作用，因为它可以从视频剪辑中拟合3DMM参数。虽然这些方法在个性化视频中取得了令人满意的效果，但它们的方法不能应用于任意照片和野外音频。
视频驱动的单图像语音人脸生成。这个任务也被称为面部再现或面部动画，其目的是将源图像的运动传递给目标人物。近年来已被广泛探讨[13,31,34,35,39,40,42,44,47] 。以往的工作也从源图像和目标中学习了一种共享的中间运动表示，大致可以分为基于地标[39]和无监督地标的方法[13,34,40,47]，基于3DMM的方法[6,31,44]和潜在动画[24,42] 。这个任务比我们的任务简单得多，因为它包含在同一域中的运动。我们的人脸渲染也受到了基于无监督地标的方法[40]和基于3DMM的方法[31]的启发，通过映射学习到的系数来生成真实的视频。然而，它们并不专注于生成真实的运动系数。
图2 。主要管道。我们的方法使用3DMM的系数作为中间运动表示。为此，我们首先从音频中生成逼真的3D运动系数(面部表情β，头部姿势ρ)，然后使用这些系数隐式地调节3D感知的面部渲染，以生成最终的视频
3. 方法
如图2所示，我们的系统使用三维运动系数作为说话头生成的中间表示。我们首先从原始图像中提取系数。然后利用和PoseV AE分别生成逼真的3DMM运动系数。最后，提出了一种3d感知的面部渲染来生成说话头部视频。下面，我们将在第3.1节中简要介绍3D人脸模型，分别在第3.2节和第3.3节中设计音频驱动的运动系数生成和系数驱动的图像动画器。
3.1 三维人脸模型的初步研究
由于真实视频是在3D环境中捕获的，因此3D信息对于提高生成视频的真实感至关重要。然而，以往的作品[28,48,49]很少考虑3D空间，因为很难从单幅图像中获得准确的3D系数，高质量的面部渲染也很难设计。受最近的单幅图像深度三维重建方法[4]的启发，我们将预测的三维变形模型(3DMMs)的空间作为我们的中间表示。在3DMM中，三维面形S可以解耦为:
S = S ￣ + α U i d + β U e x p , \{S}=\{\{S}}+\alpha \{U}_{i d}+\beta \{U}_{e x p},S=S+αUid?+βUexp?,
其中S ￣ \{\{S}}S为3D人脸的平均形状，U i d \{U}_{i d}Uid?和U exp ? \{U}_{\exp }Uexp?为LSFM变形模型[1]的身份和表达的标准正交基。系数α ∈ R 80 \alpha \in \{R}^{80}α∈R80和β ∈ R 64 \beta \in \{R}^{64}β∈R64分别描述了人的身份和表达。为了保持位姿方差，r ∈ S O ( 3 ) \{r} \in S O(3)r∈SO(3)和t ∈ R 3 \{t} \in \{R}^3t∈R3表示头部旋转和平移。为了实现同一性无关系数生成[31]，我们只对运动参数建模为{ β , r , t } \{\beta, \{r}, \{t}\}{β,r,t} 。我们从前面介绍的驾驶音频中分别学习了头部姿势ρ = [ r , t ] \rho=[\{r}, \{t}]ρ=[r,t]和表达系数β \betaβ 。然后，这些运动系数用于隐式调节我们的面部渲染，以实现最终的视频合成。
3.2 通过音频生成运动系数
如上所述，3D运动系数包含头部姿态和表情，其中头部姿态是全局运动，而表情是相对局部的。为此，把所有的东西都学了会在网络中造成巨大的不确定性，因为头部的姿势与音频的关系相对较弱，而嘴唇的运动是高度相关的。我们使用提出的和生成头部姿态和表情的运动，分别介绍如下。