
摘要
本文旨在为情感识别与情感分析任务提供一种轻量化 yet 强大的新解决方案。我们的研究动机在于提出两种基于Transformer架构并融合调制机制的模型,能够整合来自多种数据集的语言与语音输入,以挑战甚至超越当前该领域的最先进水平。为充分验证所提模型的高效性,我们在IEMOCAP、MOSI、MOSEI和MELD等多个公开数据集上进行了细致的性能评估。实验结果可直接复现,相关代码已完全开源,以支持未来的研究工作。
代码仓库
jbdel/modulated_fusion_transformer
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multimodal-sentiment-analysis-on-cmu-mosei-1 | Modulated-fusion transformer | Accuracy: 82.45 |