
摘要
对话中的情绪识别(Emotion Recognition in Conversations, ERC)在构建富有同理心的人机交互系统中具有重要意义。在对话视频中,情绪信息可同时存在于多种模态中,包括音频、视频和文本(转录内容)。然而,由于各模态固有的特性,多模态ERC始终是一项极具挑战性的任务。现有的ERC研究主要依赖对话中的文本信息,忽视了音频与视觉模态的潜在价值。我们推测,通过引入多模态融合策略,有望显著提升情绪识别的准确率。为此,本文提出一种多模态融合网络(Multi-modal Fusion Network, M2FNet),该网络能够从视觉、音频和文本三种模态中提取与情绪相关的关键特征,并采用基于多头注意力机制的融合方法,整合输入数据中富含情绪信息的潜在表示。为更有效地挖掘音频与视觉模态中的情绪特征,我们设计了一种新型特征提取器,并结合一种新颖的自适应边界三元组损失函数(adaptive margin-based triplet loss)对其进行训练,以学习更具判别性的音频与视觉情绪特征。在ERC领域,现有方法通常在某一基准数据集上表现优异,但在其他数据集上性能显著下降。实验结果表明,所提出的M2FNet架构在知名数据集MELD和IEMOCAP上均取得了最高的加权平均F1分数,显著超越现有方法,刷新了该任务的最新性能纪录,达到了新的技术水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| emotion-recognition-in-conversation-on | M2FNet | Accuracy: 69.69 Weighted-F1: 69.86 |
| emotion-recognition-in-conversation-on | M2FNet-Text | Accuracy: 66.05 Macro-F1: 66.38 Weighted-F1: 66.2 |
| emotion-recognition-in-conversation-on-meld | M2FNet-Text | Accuracy: 67.24 Weighted-F1: 66.23 |
| emotion-recognition-in-conversation-on-meld | M2FNet | Accuracy: 67.85 Weighted-F1: 66.71 |