
摘要
尽管多模态情感分析(Multimodal Sentiment Analysis, MSA)通过融合来自多种模态(如语言、视频和音频)的丰富信息展现出良好的性能,但不同模态之间潜在的情感无关信息及冲突信息仍可能制约模型性能的进一步提升。为缓解这一问题,本文提出自适应语言引导的多模态Transformer(Adaptive Language-guided Multimodal Transformer, ALMT),其核心在于引入一种自适应超模态学习(Adaptive Hyper-modality Learning, AHL)模块。该模块在不同尺度的语言特征引导下,从视觉与音频特征中学习一种能够抑制无关性与冲突性的表示。通过获得的超模态表示,模型能够实现多模态融合,从而构建互补且协同的联合表示,有效提升多模态情感分析性能。实验结果表明,ALMT在多个主流数据集(如MOSI、MOSEI和CH-SIMS)上均取得了当前最优的性能表现;大量消融实验进一步验证了所提出的无关性/冲突抑制机制的有效性与必要性。
代码仓库
Haoyu-ha/ALMT
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multimodal-sentiment-analysis-on-ch-sims | ALMT | Acc-2: 81.19 Acc-3: 68.93 Acc-5: 45.73 CORR: 0.619 F1: 81.57 MAE: 0.404 |
| multimodal-sentiment-analysis-on-cmu-mosei-1 | ALMT | Acc-5: 55.96 Acc-7: 54.28 Corr: 0.779 MAE: 0.526 |
| multimodal-sentiment-analysis-on-cmu-mosi | ALMT | Acc-5: 56.41 Acc-7: 49.42 Corr: 0.805 MAE: 0.683 |