SadTalker:Stylized Audio( 二 )


音频驱动的视频肖像 。我们的任务还涉及到视觉配音,目的是通过音频编辑人像视频 。与音频驱动的单图像语音人脸生成不同,该任务通常需要在特定视频上进行训练和编辑 。在深度视频人像[18]的基础上,这些方法利用3DMM信息进行人脸重建和动画 。[43],NVP [36],AD-NeRF[10]学习重现表情编辑嘴型 。除了嘴唇运动,即头部运动[22,45],情绪性谈话的面部[17]也得到关注 。基于3DMM的方法在这些任务中发挥了重要作用,因为它可以从视频剪辑中拟合3DMM参数 。虽然这些方法在个性化视频中取得了令人满意的效果,但它们的方法不能应用于任意照片和野外音频 。
视频驱动的单图像语音人脸生成 。这个任务也被称为面部再现或面部动画,其目的是将源图像的运动传递给目标人物 。近年来已被广泛探讨[13,31,34,35,39,40,42,44,47] 。以往的工作也从源图像和目标中学习了一种共享的中间运动表示,大致可以分为基于地标[39]和无监督地标的方法[13,34,40,47],基于3DMM的方法[6,31,44]和潜在动画[24,42] 。这个任务比我们的任务简单得多,因为它包含在同一域中的运动 。我们的人脸渲染也受到了基于无监督地标的方法[40]和基于3DMM的方法[31]的启发,通过映射学习到的系数来生成真实的视频 。然而,它们并不专注于生成真实的运动系数 。
图2 。主要管道 。我们的方法使用3DMM的系数作为中间运动表示 。为此,我们首先从音频中生成逼真的3D运动系数(面部表情β,头部姿势ρ),然后使用这些系数隐式地调节3D感知的面部渲染,以生成最终的视频
3. 方法
如图2所示,我们的系统使用三维运动系数作为说话头生成的中间表示 。我们首先从原始图像中提取系数 。然后利用和PoseV AE分别生成逼真的3DMM运动系数 。最后,提出了一种3d感知的面部渲染来生成说话头部视频 。下面,我们将在第3.1节中简要介绍3D人脸模型,分别在第3.2节和第3.3节中设计音频驱动的运动系数生成和系数驱动的图像动画器 。
3.1 三维人脸模型的初步研究
由于真实视频是在3D环境中捕获的,因此3D信息对于提高生成视频的真实感至关重要 。然而,以往的作品[28,48,49]很少考虑3D空间,因为很难从单幅图像中获得准确的3D系数,高质量的面部渲染也很难设计 。受最近的单幅图像深度三维重建方法[4]的启发,我们将预测的三维变形模型(3DMMs)的空间作为我们的中间表示 。在3DMM中,三维面形S可以解耦为:
S = S  ̄ + α U i d + β U e x p , \{S}=\{\{S}}+\alpha \{U}_{i d}+\beta \{U}_{e x p},S=S+αUid?+βUexp?,
其中S  ̄ \{\{S}}S为3D人脸的平均形状,U i d \{U}_{i d}Uid?和U exp ? \{U}_{\exp }Uexp?为LSFM变形模型[1]的身份和表达的标准正交基 。系数α ∈ R 80 \alpha \in \{R}^{80}α∈R80和β ∈ R 64 \beta \in \{R}^{64}β∈R64分别描述了人的身份和表达 。为了保持位姿方差,r ∈ S O ( 3 ) \{r} \in S O(3)r∈SO(3)和t ∈ R 3 \{t} \in \{R}^3t∈R3表示头部旋转和平移 。为了实现同一性无关系数生成[31],我们只对运动参数建模为{ β , r , t } \{\beta, \{r}, \{t}\}{β,r,t} 。我们从前面介绍的驾驶音频中分别学习了头部姿势ρ = [ r , t ] \rho=[\{r}, \{t}]ρ=[r,t]和表达系数β \betaβ 。然后,这些运动系数用于隐式调节我们的面部渲染,以实现最终的视频合成 。
3.2 通过音频生成运动系数
如上所述,3D运动系数包含头部姿态和表情,其中头部姿态是全局运动,而表情是相对局部的 。为此,把所有的东西都学了会在网络中造成巨大的不确定性,因为头部的姿势与音频的关系相对较弱,而嘴唇的运动是高度相关的 。我们使用提出的和生成头部姿态和表情的运动,分别介绍如下 。