语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术( 三 )


其中,j ′ ≠ j j'\neq j j′?=j且j代表情感标签分类的下标 。基本假设是,特征空间是不同的,并且分类条件独立 。这是非常有用的,因为我们正在构建一个特定领域的模型,并将其与使用不同特征表示的相结合 。采用后期融合技术会进一步改善了联合cnn模型表现出的跨模态动态特性 。
5实验评估( ) 5.1数据库()
多模态情感识别任务在数据库上进行 。它是一个数据库,包括音频、视频、文本转录和动作捕捉数据,这些数据来自10对演讲者之间的互动 。这是多模态情绪识别任务中最常用的数据集之一 。受试者参与情感互动,共分为五个阶段,每个阶段有一对受试者 。这些视频被分割成带有情绪标签的话语(句段),这些注释包括9个分类和3维度标签 。数据集有大约12个小时的口语内容,是该任务最大的公开可用数据集之一 。我们将情绪分为六大类(愤怒、快乐、悲伤、中性、兴奋和沮丧) 。每段录音至少有3个标注者进行标注 。实验使用的是大多数人对情绪标签有一致看法的录音 。
5.2实验步骤( )
我们考虑六个情绪类别,以保持与最近的文献中的多模态情绪识别一致 。现有文献大多是基于语音的情感识别,只考虑其中的四个类别(不包括兴奋和沮丧) 。然而,由于情绪类之间的混淆程度较大,以及情绪类的分布变化,6分类模型的性能会下降 。一些多模态系统只考虑四到五类 。所提出的系统和基线在相似的评估(四类分类任务)下优于同类系统,因此本文不将它们包括在内进行比较 。
训练和验证数据是使用由8个发言者在120个视频(5810个段话语)组成的前4个会话创建的 。第五个会话,包括31个视频(1623个段)用于测试 。通过这种方法,我们可以确保测试的演讲者和会话没有被训练好的模型训练过 。验证集被选为训练数据的20% 。
基于文本和语音的情感识别的超参数细节和所提方法的其他参数如表所示 。对于单模态和双模态架构,Adam优化器的初始学习率为损失为0.001,loss函数用的是交叉熵损失(crossloss) 。训练过程中CNN进行了20个epoch,LSTM进行了40个epoch,用的是早停法(Early ) 。
验证损失(泛化损失 Theloss)的监测耐心系数(可以理解为一个阈值)为6 。LSTM层的参数设置为0.2用于进行正则化 。文本特征提取使用单层CNN,其超参数如表所示 。LSTMs和CNNs使用Keras工具包实现 。
通过实验来和先进的多模态情感识别系统进行比较,观察在具有相似的输入特征表征,相同的分类标签的数目和类型,以及相似的评估方案时的实验结果 。在文献中,多模态情感识别通常采用加权正确率(WA)、非加权正确率(UA)或F1评分(F1)进行评价 。我们将所有这些措施考虑在内与其他文献方法进行了公平的比较 。
5.3基线系统()
我们比较了所提出的方法与最先进的语言水平系统的性能 。此外,还考虑了对话级系统,以分析除了句段级特征之外,所提供的上下文信息对该系统性能的影响 。
张量融合网络(TFN):这是一种基于融合的方法,明确地模拟模态内和跨模态间动态联系 。单模态、双模态和三模态交互被聚合在一个特别设计的融合层和推断层中 。记忆融合网络(MFN):该方法利用德尔塔记忆注意网络(delta-)融合机制来实现多模态序列学习(the multi-view) 。该模型为语音句段水平多模态情绪识别系统提供了最先进的的研究结果 。作者考虑将TFN和MFN作为我们的基线系统,尽管它们还使用了语音和文本之外的视觉特征 。Bi-LSTM双向上下文长短时记忆神经网络 (cLSTM):这是一个对话级情感识别模型,它通过使用独立的LSTM对上下文的单模态和多模态特征进行分层建模来对句段进行分类 。最终决策也受到邻近句段的影响 。交互式对话存储器网络(ICON):这种方法使用全局记忆对自我和说话者之间的影响(相互作用与关系)进行分层建模 。它由自影响模块、动态全局影响模块和多跳内存组成 。这个对话级模型提供了最先进的对话级情感识别 。然而,像ICON这样的对话级系统需要句段的历史记录,这在实时人机交互中是不容易得到的 。5.4实验结果()