
摘要
情感是人类互动中固有的组成部分,因此开发能够理解并识别人类情感的AI系统至关重要。在涉及多方参与的对话中,个体的情感状态不仅受到其他说话者话语的影响,也受到自身在对话过程中情绪变化的持续作用。本文提出了一种基于上下文图神经网络的多模态情感识别系统——COGMEN(Contextualized Graph Neural Network-based Multimodal Emotion Recognition),该系统同时利用局部信息(即说话者之间的交互关系及说话者内部的依赖性)和全局上下文信息。所提出的模型采用图神经网络(GNN)架构,以有效建模对话中复杂的依赖关系,涵盖局部与全局层面的信息。在IEMOCAP和MOSEI数据集上的实验结果表明,该模型取得了当前最先进的性能(SOTA),且详细的消融实验进一步验证了同时建模局部与全局信息的重要性。
代码仓库
m-muaz/Cogmen_SLT
pytorch
GitHub 中提及
exploration-lab/cogmen
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| emotion-recognition-in-conversation-on-7 | COGMEN | Weighted F1: 84.50 |
| emotion-recognition-in-conversation-on-cmu-2 | COGMEN | Weighted F1: 43.90 |
| multimodal-emotion-recognition-on-iemocap-4 | COGMEN | Weighted F1: 84.50 |