3 个月前

基于分层互信息最大化提升多模态融合的多模态情感分析

基于分层互信息最大化提升多模态融合的多模态情感分析

摘要

在多模态情感分析(Multimodal Sentiment Analysis, MSA)中,模型的性能高度依赖于合成嵌入(synthesized embeddings)的质量。这些嵌入由上游的多模态融合(multimodal fusion)过程生成,其目标是从输入的单模态原始数据中提取并融合信息,以构建更丰富的多模态表征。以往的研究通常通过反向传播任务损失或调整特征空间的几何属性来优化融合结果,但这类方法往往忽视了从输入到融合输出过程中关键任务相关信息的保留。为此,本文提出一种名为多模态信息最大化的框架——MultiModal InfoMax(MMIM)。该框架通过分层最大化单模态输入对之间的互信息(Mutual Information, MI,即模态间互信息)以及融合结果与单模态输入之间的互信息,以确保在多模态融合过程中有效保留任务相关的信息。MMIM框架与主任务(MSA)联合训练,从而提升下游多模态情感分析任务的性能。针对互信息估计中难以求解的问题,本文进一步设计了一套计算简便的参数化与非参数化方法,用于近似互信息的真实值。在两个广泛使用的公开数据集上的实验结果表明,所提方法具有显著的有效性。本工作的代码已开源,可访问 https://github.com/declare-lab/Multimodal-Infomax 获取。

代码仓库

declare-lab/multimodal-infomax
官方
pytorch
GitHub 中提及
declare-lab/multimodal-deep-learning
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multimodal-sentiment-analysis-on-cmu-mosiself-M
Acc-2: 82.54
Acc-7: 45.79
Corr: 0.795
F1: 82.68
MAE: 0.712
multimodal-sentiment-analysis-on-cmu-mosiMMIM
Acc-2: 84.14
Acc-7: 46.65
Corr: 0.8
F1: 84
MAE: 0.7
multimodal-sentiment-analysis-on-cmu-mosiMAG-BERT*
Acc-2: 82.37
Acc-7: 43.62
Corr: 0.781
F1: 82.5
MAE: 0.727

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于分层互信息最大化提升多模态融合的多模态情感分析 | 论文 | HyperAI超神经