融合关键点属性与注意力表征的人脸表情识别--2021.高红霞( 三 )


再训练时,在三个数据集上都进行5折交叉验证,统计平均准确率 。
2.3 结果分析 2.3.1 网络模型有效性验证

融合关键点属性与注意力表征的人脸表情识别--2021.高红霞

文章插图
从3个混淆矩阵可以看出,因为CK+和JAFFE干净稳定,所以效果都很好 。
而因包含大量人脸遮挡和低对比度图像和类别严重不均衡,所以略差(是和前两个数据集比,本身比其他模型在效果要很好) 。同时在伤悲生气害怕三个表情上特别差,因为这三类都属于消极情绪,本身就有很强的相似性,所以三者中相互错分的比例很高 。并且这三种表情差异只有一点面部动作,所以本身就难分 。
为了对比我训练了一个模型,在上获得了73.7%的精度(普通精度),然后其混淆矩阵如上图所示,并且按加权算法的精度=71.388%
2.3.2 现有方法对比验证
可以看到特别是在数据集上效果有很大的提升(我的疑问是本文模型使用加权精度,那么其他模型的精度也是加权精度吗?可能是自己跑过,然后加权精度)
在数据清晰、差异化较小的情况下,目前大部分方法都能取得较好的结果,但是在真实的复杂场景下,很多方法难以适用 。
(从数据集的效果看)然而本文所提的关键点属性表征模块和基于注意力的识别模块能有效解决上述问题,实验结果也展现了本文所提模型的识别精度,获得目前最优的结果 。
以小提琴图展示现有方法对比
首先需要了解小提琴图的含义,可以看看如何通俗的理解小提琴图
第一个是男性年龄分布、第二个是女性年龄分布 。图中四分位数(也就是三条虚线)就是将一个小提琴包含的数量顺序排列均等分为4份,所以中间是主体部分,而两头尖尖约长代表离主体越远,也就是离群值 。总体来说就是中心线代表平均值,而图约扁平,说明方差越小约稳定(因为尖尖离群值会导致方差变大) 。
利用小提琴图展示不同方法识别结果的准确率波动情况 。
从三张小提琴图可以看出:
2.3.3 消融实验
为了测试本文所提注意力机制和模块的有效性,以作为骨干网,将其网络中的残差结构置换为图 4 中所示的注意力模块,记为CS- 。
此外,在 CS- 基础上,本文进一步加入模块,记为 CS--Trans 模型,能够捕获关键之间的相关联系,对人脸表情识别产生积极作用 。
CK+和 JAFFE 数据集图像清晰、差异化较小,因而基础网络都能取得较好的结果 。
数据集中包含大量人脸遮挡和低对比度图像,其他算法很难得到较好的结果,而本文所提模块在基础上准确率分别提升 4.21%和7.69%,充分说明其在高质量数据中能够保持较高的识别准确率,在低质量数据中同样能够取得较大的指标提升,进一步证明了本文算法的鲁棒性和有效性 。
3、总结
本文提出一种融合关键点属性与注意力表征的人脸表情识别方法,不仅能够有效避免非表情区域的干扰,而且可以关注图像中局部位置的细微变化 。
通过添加通道注意力和空间注意力机制,实现不同维度和位置的权重分配,引导网络学习更具有表征性的特征 。
本文提出基于模块构建表情识别模型,通过模块在所有实体对之间执行信息交换,捕获关键点之间丰富的位置信息和互信息,从而有效提升表情识别精度 。
最后将本文所提出的算法分别在CK+、JAFFE、 三种公开数据集上进行实验验证,分别达到 99.22%、96.57%、73.37%的识别准确率 。
【融合关键点属性与注意力表征的人脸表情识别--2021.高红霞】其中数据集场景复杂、识别难度较高,本文提出的算法达到了目前为止最高的准确度,充分展现了算法的有效性和鲁棒性 。