融合关键点属性与注意力表征的人脸表情识别--2021.高红霞

1.2 基于注意力的人脸关键点属性表征1.32、实验与结果分析3、总结
本文使用68点人脸关键点+进行表情分类 。因为人脸关键点相比于以前直接使用人脸图像比,能够过滤掉很多不需要的多余特征,使用非表情区域的局部关键点作为特征表征(从感性来看,表情变化也对于着关键点的变化,比如开心表情,这几个关键点应该怎样,那几个关键点应该怎样,结合所有关键点的信息就能判别表情) 。现在提取了关键点特征,然后使用来探索这些关键点之间的联系(因为本身就是全局注意力,比如你分析问题,得到众多线索之后,如果能从全局出发充分理解线索之间的联系,那么就能解决问题),最终实现表情分类 。
所以本文主要分为前本部分的提取关键点特征的卷积部分和后半部分的 。卷积部分简单来看就是结构+通道注意力+空间注意力,只不过这里的注意力权重的计算方法有点复杂(因涉猎短浅,不知道这是不是本文原创) 。部分就是标准的ViT中的结构,直接拿来用的,没什么好说的 。
0、摘要
现在的方法对非表情区域干扰不具有鲁棒性(因为都是传入一张图像,图像中很多比如头发部分就是非表情区域,也会参与网络的运算,印象分类),为了用高效特征表示人脸表情变化,提出一种融合关键点属性与注意力表征的人脸表情识别方法(注意力:通道注意力、空间注意力、的自注意力) 。
首先通过添加通道注意力和空间注意力的卷积神经网络提取人脸关键点信息,这里的注意力有效避免非表情区域的干扰,捕获图像中局部关键点的特征表征 。
然后引入模块学习不同关键点之间的相关联系,引导网络构建对分类更具有分辨力的特征表示 。
最后在CK+、JAFFE、上的准确率达到了99.22%、96.57%、73.37% 。(在实验部分作者说了这里的准确率是一个加权精度,即各个类别的样本占比率*各类别的精度,比如a,b,c三种表情样本占比为30%、30%、40%,而三种表情的精度为70%、60%、80%,则最总精度 = 0.3 ? 0.7 + 0.3 ? 0.6 + 0.4 ? 0.8 = 0.71 =0.3*0.7+0.3*0.6+0.4*0.8=0.71 =0.3?0.7+0.3?0.6+0.4?0.8=0.71)
在假设上,而作者认为:类间差异微小的表情,如:生气、伤心、郁闷等,表情变化多表现为“眉头紧锁、嘴角下拉、脸颊微抬”,其信息差异主要集中在局部关键点区域 。这种的细微改变在整张人脸图像上网络难以学习,但是关键点位置包含的信息会发生较大改变(如生气时嘴角关键点下移) 。因此,引导网络关注这些关键点的属性信息将对模型识别率的提升至关重要 。如果这个假设正确,那么可能就是能提高分类效果的原因 。从这个假设可以看出,可能模型对类间差异微小的表情的分类准确率是有所提升的 。从实验部分的数据看,确实有这个倾向 。
1、融合关键点属性与注意力表征的识别模型
本文提出的表情识别模型主要包括两个模块,其中基于注意力的人脸关键点属性表征模块主要抽取具有表情的区分性的特征,而基于的特征融合机制则是探索不同特征点属性之间的相关关系,网络结构图如图 1 所示
1.1 混合注意力模块
传统方法使用整张人脸图像推理,该法易受非表情区域影响(比如头发、耳朵) 。因此本文提出一个基于关键点作为特征的方法,通过利用CNN回归获取人脸关键点以及关键点的特征向量,然后输送进模块编码,从而进行表情识别 。
而在CNN部分中,又使用了通道注意力和空间注意力 。原因有二:1)在CNN逐层运算中往往会产生较高的通道数,导致通道冗余;2)含人脸图像在空间上,不同位置应该有不同的重要性(比如对分类来讲,眼睛嘴巴等区域比颧骨等区域更加重要) 。所以为了解决上述问题,本文引入通道注意力和空间注意力 。