
摘要
理解表达的情感与情绪是人类多模态语言中的两个关键因素。本文提出了一种基于Transformer的联合编码模型(Transformer-based Joint-encoding, TBJE),用于情感识别与情感分析任务。除了采用Transformer架构外,该方法还引入了模块化的协同注意力机制与视觉“瞥见”(glimpse)层,以实现对一种或多种模态信息的联合编码。所提出的模型已提交至ACL2020第二届多模态语言大型挑战赛(Second Grand-Challenge on Multimodal Language),并在CMU-MOSEI数据集上进行评估。用于复现本文实验的代码已开源,地址为:https://github.com/jbdel/MOSEI_UMONS。
代码仓库
jbdel/MOSEI_UMONS
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multimodal-sentiment-analysis-on-cmu-mosei-1 | Transformer-based joint-encoding | Accuracy: 82.48 |