3 个月前

M2FNet:对话情感识别的多模态融合网络

M2FNet:对话情感识别的多模态融合网络

摘要

对话中的情绪识别(Emotion Recognition in Conversations, ERC)在构建富有同理心的人机交互系统中具有重要意义。在对话视频中,情绪信息可同时存在于多种模态中,包括音频、视频和文本(转录内容)。然而,由于各模态固有的特性,多模态ERC始终是一项极具挑战性的任务。现有的ERC研究主要依赖对话中的文本信息,忽视了音频与视觉模态的潜在价值。我们推测,通过引入多模态融合策略,有望显著提升情绪识别的准确率。为此,本文提出一种多模态融合网络(Multi-modal Fusion Network, M2FNet),该网络能够从视觉、音频和文本三种模态中提取与情绪相关的关键特征,并采用基于多头注意力机制的融合方法,整合输入数据中富含情绪信息的潜在表示。为更有效地挖掘音频与视觉模态中的情绪特征,我们设计了一种新型特征提取器,并结合一种新颖的自适应边界三元组损失函数(adaptive margin-based triplet loss)对其进行训练,以学习更具判别性的音频与视觉情绪特征。在ERC领域,现有方法通常在某一基准数据集上表现优异,但在其他数据集上性能显著下降。实验结果表明,所提出的M2FNet架构在知名数据集MELD和IEMOCAP上均取得了最高的加权平均F1分数,显著超越现有方法,刷新了该任务的最新性能纪录,达到了新的技术水平。

基准测试

基准方法指标
emotion-recognition-in-conversation-onM2FNet
Accuracy: 69.69
Weighted-F1: 69.86
emotion-recognition-in-conversation-onM2FNet-Text
Accuracy: 66.05
Macro-F1: 66.38
Weighted-F1: 66.2
emotion-recognition-in-conversation-on-meldM2FNet-Text
Accuracy: 67.24
Weighted-F1: 66.23
emotion-recognition-in-conversation-on-meldM2FNet
Accuracy: 67.85
Weighted-F1: 66.71

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
M2FNet:对话情感识别的多模态融合网络 | 论文 | HyperAI超神经