
摘要
多模态情感分析是当前一个快速发展的研究领域,旨在识别视频中的情感信息。现有研究通常将话语视为相互独立的单元,忽略了视频中不同话语之间的相互依赖关系与关联性。本文提出一种基于LSTM的模型,使各话语能够捕获其在同一流视频中上下文环境中的相关信息,从而有效辅助情感分类。实验结果表明,该方法在性能上较当前最先进方法提升了5%至10%,且在泛化能力方面表现出较强的鲁棒性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| emotion-recognition-in-conversation-on | bc-LSTM+Att | Accuracy: 59.09 Macro-F1: 56.52 Weighted-F1: 58.54 |
| emotion-recognition-in-conversation-on-cped | bcLSTM | Accuracy of Sentiment: 49.65 Macro-F1 of Sentiment: 45.40 |
| emotion-recognition-in-conversation-on-meld | bc-LSTM+Att | Accuracy: 57.50 Weighted-F1: 56.44 |
| multimodal-sentiment-analysis-on-mosi | bc-LSTM | Accuracy: 80.3% |