3 个月前

基于辅助跨模态交互的关联时序图神经网络的对话理解

基于辅助跨模态交互的关联时序图神经网络的对话理解

摘要

情感识别是理解人类对话中至关重要的任务,随着多模态数据(如语言、语音和面部表情)概念的引入,该任务变得更加复杂。作为典型解决方案,现有方法通常利用全局上下文与局部上下文信息来预测对话中每一句话(即话语)的情感标签。具体而言,全局表示可通过在对话层面建模跨模态交互来获取;而局部表示则通常基于说话人的时间序列信息或情感变化趋势进行推断,但这类方法往往忽略了话语层面的关键因素。此外,大多数现有方法将多模态特征以融合形式统一输入,未能充分挖掘各模态特有的表示能力。针对上述问题,我们提出了关系时序图神经网络与辅助跨模态交互框架(CORECT),这是一种新颖的神经网络架构,能够以模态特异性的方式,有效捕捉对话层面的跨模态交互关系以及话语层面的时间依赖性,从而提升对话理解性能。大量实验结果表明,CORECT在多模态情感识别(Multimodal Emotion Recognition, ERC)任务上取得了当前最先进的性能,在IEMOCAP与CMU-MOSEI两个公开数据集上均展现出显著优势。

代码仓库

基准测试

基准方法指标
multimodal-emotion-recognition-on-iemocapCORECT (4-class)
F1: 0.846
Weighted Accuracy (WA): 0.847
Weighted F1: 0.846

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于辅助跨模态交互的关联时序图神经网络的对话理解 | 论文 | HyperAI超神经