
摘要
多模态情感分析(Multimodal Sentiment Analysis, MSA)与对话中的情感识别(Emotion Recognition in Conversation, ERC)是计算机理解人类行为的关键研究方向。从心理学视角来看,情绪(emotion)通常指在短时间内表达出的情感或感受,而情感(sentiment)则是在较长时间内形成并持续持有的态度或评价。然而,现有大多数研究通常将情感与情绪分别处理,未能充分挖掘二者之间的互补信息。为此,本文提出一种多模态情感知识共享框架(UniMSE),从特征、标签到模型三个层面统一MSA与ERC任务。该框架在句法与语义层面实现多模态融合,并引入模态间及样本间的对比学习机制,以更有效地捕捉情感与情绪之间的差异性与一致性。在四个公开基准数据集(MOSI、MOSEI、MELD和IEMOCAP)上的实验结果表明,所提出方法具有显著有效性,并在各项指标上持续优于当前最先进的方法。
代码仓库
lemei/unimse
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| emotion-recognition-in-conversation-on | UniMSE | Accuracy: 70.56 Weighted-F1: 70.66 |
| emotion-recognition-in-conversation-on-meld | UniMSE | Accuracy: 65.09 Weighted-F1: 65.51 |
| multimodal-sentiment-analysis-on-cmu-mosei-1 | UniMSE | Accuracy: 87.50 F1: 87.46 MAE: 0.523 |
| multimodal-sentiment-analysis-on-cmu-mosi | UniMSE | Acc-2: 86.9 Acc-7: 48.68 Corr: 0.809 F1: 86.42 MAE: 0.691 |
| multimodal-sentiment-analysis-on-mosi | UniMSE | Accuracy: 86.9 F1 score: 86.42 |