ICASSP 2022 | 用于多模态情感识别的KS-Transformer

2020年,优必选科技与华南理工大学合作共建了“类人情感智能”联合创新实验室,在双方强强联合下,联合创新实验室在相关技术上不断取得突破 。近期,该实验室的最新论文《Key-For》(用于多模态情感识别的KS-),就入选了刚刚结束的 2022(on ,and),该会议由电气电子工程师学会(IEEE)主办,是全世界最大、最全面的声学、语音和信号处理国际会议 。
以下是该论文的核心观点 。
多模态情感识别是人机交互中的重要技术,也是人工智能走向类人智能时所需要攻克的关键难题 。在以往的大多数研究工作当中,情感识别系统会考虑输入语音信号或文字信号中的所有信息 。但是,在整段的信号里面,蕴含有情感信息的片段往往只占整体中的一部分 。在情感识别过程中,情感无关的信息会成为系统中的噪声,从而影响识别系统的性能 。因此,如何让系统尽量关注信号中蕴含有丰富情感信息的片段,是提高情感识别准确率的关键 。
我们基于架构,提出了一种全新的键稀疏结构(Key- , KS-),可以动态地判断文本信号中的每一个单词,亦或是语音信号中每一帧的重要性,从而帮助模型尽可能把注意力放在与情感相关的片段上 。此外,为了更好地利用好多模态信息,我们提出了一个串联的互注意力模块( Cross- Block,CCAB),更好融合不同模态之间的信息 。
传统的方法:
传统的模型使用了信号中的所有信息 。以一段在数据库中的文本信号“Okay, look it’s aday. Why are we ?”为例,传统的关注到了文本中的每一个单词,对每一个单词都分配了注意力权重,然而,“”和“”这两个单词包含了该文本中绝大部分的情感信息,需要模型更多的关注 。
【ICASSP 2022 | 用于多模态情感识别的KS-Transformer】自动地寻找情感片段:
KS-

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

文章插图
首先,我们重新思考了中的注意力机制,其计算过程如下所示:
其中,W是权重矩阵,attn是注意力计算的输出 。值得注意的是,对于语音信号,QKV中的每一个token代表语音中的某一帧 。对于文本信号,QKV则代表文本中的某一个单词/字 。权重矩阵W中的每一行,代表着V中每一个token所分配到的注意力权重 。我们把V中同一个token的所有注意力权重进行相加,其和值则代表该token在整个样本中的重要性 。直观来看,如果一个token很重要,那么在注意力机制计算的过程中,其他token都应该给它分配一个较大的注意力权重,其和值也必然更加大 。相反,如果一个token不重要,其他token都只会分配很小的注意力权重给它,其和值也将很小 。我们挑选出k个token,他们具有最大的和值,并保留他们的注意力权重,而将其他token的注意力权重置零 。最终,我们设计的注意力机制计算流程如下图所示:
为了更好地利用好文本与语音信号的信息,本文提出了一个串联的互注意力模块( Cross- Block,CCAB),通过增加不同模态之间的交互次数使模态间的融合更加充分 。其详细结构如下图所示:
每经过一个CCAB模块,模态B中的信息就通过KS-注入到了模态A 。经过多个CCAB模块,可以使模态A和模态B中的信息实现多次的交互 。
实验结果
以下实验在常用情感数据库以及最新发布的大规模情感数据库LSSED中进行 。
1)可视化分析
同样以文本信号“Okay, look it’s aday. Why are we ?”为例,我们对原始与我们所提出的KS-中的注意力权重进行了可视化的分析,结果如下图所示 。可以看到,给句子中的每一个单词都分配了注意力权重,包括一些与情感相关性不大的单词,使得模型容易出现过拟合的现象 。而KS-通过稀疏的注意力机制,过滤掉了大部分的噪声单词,减少模型的复杂度的同时提升了模型的鲁棒性 。