语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术( 四 )


表2显示了不同融合技术下所提方法的性能,其参数如表1所示 。通过加权精度(WA)和F1评分来评价平均分类性能 。在数据库的中,有384句是“中性”情绪,而只有144句是“快乐”情绪 。非加权精度(UA)计算特定情绪类别召回的平均值,对等不平衡数据集有利 。
早期融合是对单模态系统的改进措施 。单模态系统的后期融合比早期融合捕获更多的模态间动态联系 。早期和后期融合的组合进一步提高了性能 。joint-CNN和LSTM系统的加权和组合提供了最佳的非加权精度,而这些系统的输出组合提供了最佳的总体精度 。在所有系统中,支持度()最小的“happy”类别的类级性能最差,而支持度最大的“sad”类别的类级性能最优 。在“高兴”和“兴奋”这两个类别中,混淆率最高为33% 。
本文提出的方法与表3中的基线系统进行比较 。这两种提出的方法在所有性能度量上都优于TFN 。最后的-III方法表现优于最先进的基线系统(MFN)的所有评估指标 。值得注意的是,所提出的方法只使用文本和语音模态,而基线也使用视觉特征进行分类 。然而,提出的融合方法在基线系统上更有提高 。
我们将对话级的情感识别模型纳入比较,即ICON和cLSTM,以了解我们的句段级系统在表现上的差异 。这也如表3所示,该融合方法的性能优于同样使用视觉特征的cLSTM融合方法 。
基于输出规则的融合结果以极小差距位于ICON模型下方 。这表明,最先进的句段水平的表现对于对话水平情感识别模型是有竞争力的 。实验评估验证了通过选择决策级的输出组合模型,捕获跨模态间的动态信息,可以获得最先进的句段级情感识别效果 。
6总结()
【语音情感识别领域-论文阅读笔记1:融合语音和文字的句段级别情感识别技术】作者提出了一种新的深度学习模型融合技术,以改进多模态场景中的情绪识别 。基于文本和语音模型的早期和后期融合技术的组合利用了跨文本和话音内容的互补信息 。当在标准的基准标记数据集上评估时,它们可以达到最先进的段级识别性能 。该模型在决策过程中充分利用了说话人自身和说话人其他因素的影响,其性能接近于现有的最好的多模态情感识别模型 。这表明适当的建模和融合方法是多模态情感识别的一个很好的方向 。未来的研究将集中于结合视频片段特有的视觉特征和模型,通过融合来帮助决策 。