Meta Talk: Learning to Data( 三 ) _人脸

这些结果导致S H \{SH} SH 系数δ ∈ R 27 \delta \in \{R}^{27} δ∈R27 。针孔相机用于对虚拟相机进行建模，用于从 3D 到 2D 的透视投影。刚性头部姿势由旋转系数R ∈ S O ( 3 ) R \in S O(3) R∈SO(3) 和平移系数T ∈ R 3 T \in \{R}^3 T∈R3 表示。完整的3DMM系数表示为： Φ I = { α T , β T , γ T , δ T , R T , T T } T ∈ R 257 \Phi_I=\left\{\alpha^T, \beta^T, \gamma^T, \delta^T, R^T, T^T\right\}^T \in \{R}^{257} ΦI?={αT,βT,γT,δT,RT,TT}T∈R257 。我们采用与[2] 相同的微调步骤来微调伪视频和目标视频的 3D 重建网络。
2.3 音频到面部表情映射
唇形同步的性能在很大程度上取决于从音频信号到面部表情的映射的构造，因为众所周知，嘴唇和下脸的运动与音频信号密切相关。丰富的音频表达对训练语料库是映射模型具有良好的任意音频驱动性能的重要前提。由于 LRS2 数据集 [9] 是来自 BBC 电视的大规模口语句子语料库，而[4] 是在 LRS2 上训练的强大的口型同步生成模型，根据我们广泛的文献和用户研究实验，伪视频口型同步良好，它充满了丰富的音素和与之配对的口型同步视频。因此，我们使用 LRS2 音频 [9] 和从预训练生成模型[4] 预测的伪视频估计的 3D 面部表情来构建有效的音频到表情转换网络。
首先，提取输入音频的 MFCC 特征并将其馈送到 AT-net[3] 以获得 256-D 高级特征 f 。然后，建立一个 A2E 网络，将此特征映射到成对的 3D 面部表情参数。由于具有大量以及丰富的音频-表情对训练数据，我们在 [2]中深化了A2E网络，以增强网络的建模和拟合能力（见表1）
为了训练 A2E 网络 H，均方误差 (MSE) 损失L A 2 E L_{A2E} LA2E? 公式如下：
L A 2 E = M S E ( H ( f ) ? α ) L_{A 2 E}=M S E(H(f)-\alpha) LA2E?=MSE(H(f)?α)
其中α \alpha α 是从伪视频估计的表情系数。
2.4 神经人脸渲染网络
在 3D 重建之后，可以使用估计的 3DMM 系数来渲染合成人脸图像。为了获得高质量的自然人脸图像，我们需要将合成的人脸图像转换为高清、逼真的人脸图像。
我们采用[2]的掩蔽策略获得合成人脸I ~ \{I} I 和目标人脸I I I 的下半部分，形成神经人脸渲染翻译的训练语料库。合成的渲染人脸通过神经渲染网络转换为目标人脸的逼真渲染。神经渲染网络由基于 U-Net 的生成器 G 和判别器 D 组成。我们通过修改基于 U-net 的人脸生成器的输入大小来调整目标人脸的分辨率。生成器由人脸编码器和人脸解码器组成。渲染人脸编码器是一堆下采样卷积层，它对合成人脸的下半部分进行编码并获得它的高级特征表示。然后由转置卷积堆叠解码器对该特征进行上采样，以合成高质量的输出。判别器使用[15]，训练生成器最小化生成的渲染人脸G ( I ~ ) G(\{I}) G(I) 和真实人脸I I I 的 L 1 L_1 L1? 重建损失：
L r e c ( D ) = ∥ I ? G ( I ~ ) ∥ 1 , L_{r e c}(D)=\|I-G(\{I})\|_1, Lrec?(D)=∥I?G(I)∥1?,
判别器 D 的输入是真实人脸I I I 和渲染图片G ( I ~ ) G(\{I}) G(I) 。GAN 的损失为：
L a d v ( G , D ) = log ? D ( I ) + log ? ( 1 ? D ( G ( I ~ ) ) , L_{a d v}(G, D)=\log D(I)+\log (1-D(G(\{I})), Ladv?(G,D)=logD(I)+log(1?D(G(I)),
因此，整个网络的损失函数为
L ( G , D ) = L r e c ( D ) + λ L a d v ( G , D ) L(G, D)=L_{r e c}(D)+\ L_{a d v}(G, D) L(G,D)=Lrec?(D)+λLadv?(G,D)
3. 实验
我们在从之前的工作 [2] 中收集的七个字符的视频（见图 2）上测试了我们的方法。其中只有 3 分钟用于训练模型。我们首先通过检测他们的人脸关键点来对齐所有说话的人脸，然后将视频裁剪为以人脸下半部分为中心的或帧大小。对于音频数据，类似于 [3]，我们使用大小为 10 毫秒的窗口来提取 MFCC 。然后，以中心图像帧用作配对图像数据，最终为每个音频块生成 28 × 80 MFCC 特征向量。