
摘要
本文研究了在多模态场景下特征编码器的最优选择与融合方法,并将这些融合策略整合至单一神经网络中,以提升情感检测性能。我们对比了多种融合方式,并探讨了在多模态融合网络中采用多损失训练的影响,揭示了关于子网络性能的出人意料的重要发现。研究还发现,引入上下文信息可显著提升模型表现。我们提出的最优模型在三个数据集(CMU-MOSI、CMU-MOSEI 和 CH-SIMS)上均达到了当前最先进的性能水平。这些结果为优化特征选择与融合策略、进一步提升神经网络在情感检测任务中的表现提供了清晰的技术路线图。
代码仓库
zehuiwu/MMML
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multimodal-sentiment-analysis-on-ch-sims | MMML | CORR: 73.26 F1: 82.9 MAE: 0.332 |
| multimodal-sentiment-analysis-on-cmu-mosei-1 | MMML | Acc-5: 57.45 Acc-7: 54.77 Accuracy: 88.22 Corr: 81.42 F1: 88.04 MAE: 0.5072 |
| multimodal-sentiment-analysis-on-cmu-mosi | MMML | Acc-2: 90.35 Acc-5: 60.01 Acc-7: 52.72 Corr: 0.8824 F1: 90.35 MAE: 0.5573 |
| multimodal-sentiment-analysis-on-mosi | MMML | Accuracy: 90.35 F1 score: 90.35 |