3 个月前

对抗性多模态域迁移用于视频级情感分析

对抗性多模态域迁移用于视频级情感分析

摘要

视频级情感分析是一项具有挑战性的任务,要求系统能够获取具有判别性的多模态表示,以捕捉不同模态间的情感差异。然而,由于各模态数据分布差异较大,且统一的多模态标签并不总是适用于单模态学习,导致单模态表示之间的距离差异增大,从而阻碍了系统学习具有判别性的多模态表示。为获得更具判别性的多模态表示以进一步提升系统性能,本文提出一种基于变分自编码器的对抗性多模态域迁移方法(VAE-AMDT),并将其与多注意力模块联合训练,以减小单模态表示之间的距离差异。首先,通过变分自编码器(VAE)使视觉、语言和语音表示服从共同的分布;随后引入对抗性训练,将所有单模态表示迁移至一个共享的嵌入空间。在此共享嵌入空间中,我们利用多注意力模块融合多模态信息,该模块包含自注意力、交叉注意力和三重注意力机制,以突出时间维度和模态维度上的关键情感表征。实验结果表明,所提方法在MOSI数据集上将当前最优方法的F1分数提升3.6%,在MOSEI数据集上提升2.9%,充分验证了其在获取判别性多模态表示以实现视频级情感分析方面的有效性。

基准测试

基准方法指标
multimodal-sentiment-analysis-on-cmu-mosiVAE-AMDT
Acc-2: 84.3
F1: 84.2
MAE: 0.716

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
对抗性多模态域迁移用于视频级情感分析 | 论文 | HyperAI超神经