学习从音频中产生精确表达式系数的通用模型非常困难,原因有两个:1)音频到表达式不是不同身份的一对一映射任务 。2)表达式系数中存在一些与声音无关的运动,这将影响预测的准确性 。我们的旨在减少这些不确定性 。对于身份问题,我们通过第一帧的表达系数β0将表情运动与特定的人联系起来 。为了减少自然说话中其他面部成分的运动权重,我们通过[28]预训练网络和深度三维重建[4],只使用嘴唇运动系数作为系数目标 。然后,其他微小的面部动作(例如眨眼)可以通过渲染图像上的额外地标损失来利用 。
图3 。我们的结构 。我们采用单目三维人脸重建模型[4] (R e R_eRe?和R d R_dRd?)来学习真实表情系数 。其中R e R_eRe?是预训练的3DMM系数估计器,R d R_dRd?是没有可学习参数的可微分3D人脸渲染 。我们使用参考表达式β 0 \β0?来降低身份的不确定性,并使用预训练的[28]生成的帧和第一帧作为目标表达系数,因为它只包含与嘴唇相关的运动 。
如图3所示,我们从音频窗口a { 1 , . . , t } a_{\{1, . ., t\}}a{1,..,t}?,其中每帧的音频特征是一个0.2s的梅尔谱图 。为了训练,我们首先设计了一个基于的音频编码器Φ A [ 11 , 28 ] \Phi_A[11,28]ΦA?[11,28][11,28],将音频特征嵌入到一个潜在空间中 。然后加入线性层作为映射网络Φ M \Phi_MΦM?对表达式系数进行解码 。在这里,我们还从参考图像中添加了参考表达β 0 \β0?,以降低上述讨论的身份不确定性 。由于我们在训练中使用lip-only系数作为 truth,我们显式地添加一个眨眼控制信号z b bink ∈ [ 0 , 1 ] z_{b \text { bink }} \in[0,1]?∈[0,1]和相应的眼标损失来生成可控眨眼 。
形式上,网络可以写成:
β { 1 , … , t } = Φ M ( Φ A ( a { 1 , … , t } ) , z b l i n k , β 0 ) \left.\beta_{\{1, \ldots, t\}}=\Phi_M\left(\Phi_A\left(a_{\{1, \ldots, t}\right\}\right), z_{b l i n k}, \\right)β{1,…,t}?=ΦM?(ΦA?(a{1,…,t?}),?,β0?)
对于损失函数,我们首先使用L\{L}_{\text { }}?来评估lip - only表达式系数R e R_eRe?(( I 0 , a { 1 , … , t } ) \left(I_0, a_{\{1, \ldots, t\}}\right)(I0?,a{1,…,t}?))与生成的β { 1 , … , t } \beta_{\{1, \ldots, t\}}β{1,…,t}?之间的差异 。注意,我们只使用的第一帧I 0 I_0I0?来生成口型同步视频,这减少了除了嘴唇运动之外的姿势变化和其他面部表情的影响 。此外,我们还涉及到可微的三维人脸渲染R d R_dRd?,以计算额外的感知损失在显式面部运动空间 。如图3所示,我们通过计算关键点损失L l k s \{L}_{l k s}Llks?来测量眨眼的范围和整体表达精度 。预训练的唇读网络Φ\Phi_{\text { }}Φ?也被用作暂时性唇读损失L read \{L}_{\text {read }}Lread?,以保持感知唇质量[8,28] 。我们在补充资料中提供了更多的培训细节 。
图4 。管道 。我们通过条件VAE结构学习输入头位ρ 0 \rho_0ρ0?的残差 。
给定条件:第一帧ρ 0 \rho_0ρ0?,样式标识Z style Z_{\text {style }}?和音频剪辑a { 1 , … , t } a_{\{1, \ldots, t\}}a{1,…,t}?时,我们的方法学习了残差头位姿Δ ρ { 1 , … , t } = ρ { 1 , … , t } ? ρ 0 \Delta \rho_{\{1, \ldots, t\}}=\rho_{\{1, \ldots, t\}}-\rho_0Δρ{1,…,t}?=ρ{1,…,t}??ρ0? 。训练之后,我们可以只通过姿态解码器和条件(cond.)生成程式化的结果 。
如图4所示,我们设计了一个基于VAE[20]的模型来学习真实说话视频中真实的、身份感知的程式化头部运动ρ ∈ R 6 \rho \in \{R}^6ρ∈R6 。在训练中,姿态VAE使用基于编码器的结构在固定n帧上进行训练 。编码器和解码器都是两层MLP,其中输入包含一个连续的t tt帧头姿态,我们将其嵌入到高斯分布中 。在解码器中,学习网络从采样分布中生成t帧姿态 。我们的不是直接生成姿态,而是学习第一帧的条件姿态ρ 0 \rho_0ρ0?的残差,这使得我们的方法能够在第一帧条件下生成更长的、稳定的、连续的头部运动 。另外,根据CVAE[5],我们添加相应的音频特征a { 1 , … , t } a_{\{1, \ldots, t\}}a{1,…,t}?和风格认同Z style Z_{\text {style }}?作为节奏意识和风格认同的条件 。采用kl -散度L K L \{L}_{K L}LKL?测量所产生运动的分布 。采用均方损耗L M S E \{L}_{M S E}LMSE?和对抗损耗L G A N \{L}_{G A N}LGAN?来保证生成的质量 。我们在补充材料中提供了更详细的损失函数 。
- 带你选择适合你的的Warm Audio麦克风前置放大器
- hd audio接口在主板哪里
- waudio软件能卸载吗
- :AudioLab Audiolab audiolab中文版最新版
- hdaudio接主板哪里
- hands—free ag audio hands free ag audio和stereo区别