6 个月前

多模态表征

Haoyu Zhang Yu Wang Guanghao Yin Kejun Liu Yuanyuan Liu Tianshu Yu

摘要

尽管多模态情感分析（Multimodal Sentiment Analysis, MSA）通过融合来自多种模态（如语言、视频和音频）的丰富信息展现出良好的性能，但不同模态之间潜在的情感无关信息及冲突信息仍可能制约模型性能的进一步提升。为缓解这一问题，本文提出自适应语言引导的多模态Transformer（Adaptive Language-guided Multimodal Transformer, ALMT），其核心在于引入一种自适应超模态学习（Adaptive Hyper-modality Learning, AHL）模块。该模块在不同尺度的语言特征引导下，从视觉与音频特征中学习一种能够抑制无关性与冲突性的表示。通过获得的超模态表示，模型能够实现多模态融合，从而构建互补且协同的联合表示，有效提升多模态情感分析性能。实验结果表明，ALMT在多个主流数据集（如MOSI、MOSEI和CH-SIMS）上均取得了当前最优的性能表现；大量消融实验进一步验证了所提出的无关性/冲突抑制机制的有效性与必要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Haoyu Zhang Yu Wang Guanghao Yin Kejun Liu Yuanyuan Liu Tianshu Yu

摘要

尽管多模态情感分析（Multimodal Sentiment Analysis, MSA）通过融合来自多种模态（如语言、视频和音频）的丰富信息展现出良好的性能，但不同模态之间潜在的情感无关信息及冲突信息仍可能制约模型性能的进一步提升。为缓解这一问题，本文提出自适应语言引导的多模态Transformer（Adaptive Language-guided Multimodal Transformer, ALMT），其核心在于引入一种自适应超模态学习（Adaptive Hyper-modality Learning, AHL）模块。该模块在不同尺度的语言特征引导下，从视觉与音频特征中学习一种能够抑制无关性与冲突性的表示。通过获得的超模态表示，模型能够实现多模态融合，从而构建互补且协同的联合表示，有效提升多模态情感分析性能。实验结果表明，ALMT在多个主流数据集（如MOSI、MOSEI和CH-SIMS）上均取得了当前最优的性能表现；大量消融实验进一步验证了所提出的无关性/冲突抑制机制的有效性与必要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供