融合关键点属性与注意力表征的人脸表情识别--2021.高红霞( 二 )


1.1.1 通道注意力模块
通道注意力模块结构如图2所示 。简单来看和普通通道注意力没啥区别,只不过要复杂一点点 。
首先有特征图 F 1 F_1 F1?,对齐进行通道注意力于是暖的步骤如下:
关于P1&P2,论文中用公式4表示,其中α是一个可训练的参数,初始值设0以降低前期收敛难度 。
1.1.2 空间注意力模块
空间注意力模块的结构如图3所示,和通道注意力有点相似 。
其步骤为:
同样的,在同时中β也是一个可学习的参数,然后初始值设0以降低前期收敛难度 。
1.1.3 通道注意力和空间注意力中间的矩阵
本文的通道注意力和空间注意力模块其实在开始的处理中都是普通且常见的注意力计算方法,但是不同的是本文两次使用了矩阵 。
以通道注意力模块为例,注意力矩阵的(i,j)位置代表通道 i i i对通道 j j j的影响 。

融合关键点属性与注意力表征的人脸表情识别--2021.高红霞

文章插图
从整体上来看,如下图,输入的第一个通道就是5个 F o F^o Fo的第一个通道的和 。而5个 F o F^o Fo的第一个通道分别对应的权重是(1,1)、(2,1)、(3,1)、(4,1)、(5,1)位置上的权重,代表着通道 1 1 1对通道 1 1 1的影响、通道 2 2 2对通道 1 1 1的影响、通道 3 3 3对通道 1 1 1的影响、通道 4 4 4对通道 1 1 1的影响、通道 5 5 5对通道 1 1 1的影响 。
至此可以看出,输出的每个通道都和每个通道权重有联系 。因为一个通道重不重要,是根据所有通道来综合判断的 。并且这里我感觉该有点的影子,因为self-模块的输出中的每个词,其实都是在self-模块内部和其他所有词计算QK相似度得到权重和,根据所有词的加权和得到的,所以输出的每个词其实和所有词都经过了交流 。同理这里每个通道的权重都和其他所有权重都经过了交流 。
而空间注意力模块的 a t t s att_s atts?中第(i,j)位置上的值代表第 i i i个空间位置对第 j j j个空间位置的影响 。(注意这里的空间位置是2D,也就是位置 i i i可能代表(2,3)这个位置,因为这里是将2D拉成1D的向量 。所以位置 i i i是1D上的位置,对应着就是2D位置上的(2,3))
1.2 基于注意力的人脸关键点属性表征
介绍了两个注意力模块,现在整体上介绍用于提取人脸关键点的CNN结构 。
结构其实比较简单,如图4的CS-就是本文使用的CNN结构 。其实就是网络中嵌入前面提到的两个注意力模块 。
该网络的输入自然就是图像,而输出是68个关键点,每个关键点用512张量来表示特征,也就是输出的形状大概是(512,68) 。用论文的话说:“经过网络训练,输出端不仅可以获取每个点的位置坐标,也可得到对应点的特征属性,这样为使用 模块去融合关键点之间的相关特征联系奠定基础 。”
图5是关键点表征提取示图(这里的颜色没有看懂,我只能理解为只画出集中意思意思 。因为文论没有提到对关键点分类,而这里的颜色确实有分类的想法 。)
1.31.3.1 网络框架
这一块感觉也没什么好说的,就是标准的ViT架构,只需要关注输入和输出即可 。
输出不必说,标准的ViT最后面也是跟一个全连接层,用于分类 。
输入就是上面的512维的68个关键点的表征数据 。
1.3.2 位置编码
的位置编码我还没去了解,也不知道论文中说的是ViT中那种现成的还是有所创新 。
2、实验与结果分析 2.1 数据集及评价准则
本文在三种数据集上实验:
另外因为样本不均衡,差异较大,所以本文采用一个加权精度的评价方法
2.2 参数设置
因为前两个数据集像比与太小,为了避免过拟合:先在训练获得预训练模型,然后再CK+和JAFFE上微调 。