6 个月前

多模态表征

Lang Su Chuqing Hu Guofa Li Dongpu Cao

摘要

多模态学习模拟了人类多感官系统的推理过程，用于感知周围环境。在进行预测时，人脑倾向于整合来自多个信息源的关键线索。本文提出一种新颖的多模态融合模块，能够学习并强调跨所有模态中更具贡献性的特征。具体而言，所提出的多模态分通道注意力融合（Multimodal Split Attention Fusion, MSAF）模块将每一模态的特征划分为通道维度均等的特征块，并构建联合表示，用于生成各特征块内通道的软注意力权重。此外，MSAF模块设计具有良好的通用性，可适配不同空间维度和序列长度的特征，适用于卷积神经网络（CNN）与循环神经网络（RNN）等多种架构。因此，MSAF可轻松集成至任意单模态网络中，实现特征融合，并复用现有的预训练单模态模型权重。为验证该融合模块的有效性，我们基于MSAF构建了三种多模态网络，分别应用于情感识别、情感分析和动作识别任务。实验结果表明，所提方法在各项任务中均取得具有竞争力的性能，显著优于其他专用网络及现有的多模态融合基准方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Lang Su Chuqing Hu Guofa Li Dongpu Cao

摘要

多模态学习模拟了人类多感官系统的推理过程，用于感知周围环境。在进行预测时，人脑倾向于整合来自多个信息源的关键线索。本文提出一种新颖的多模态融合模块，能够学习并强调跨所有模态中更具贡献性的特征。具体而言，所提出的多模态分通道注意力融合（Multimodal Split Attention Fusion, MSAF）模块将每一模态的特征划分为通道维度均等的特征块，并构建联合表示，用于生成各特征块内通道的软注意力权重。此外，MSAF模块设计具有良好的通用性，可适配不同空间维度和序列长度的特征，适用于卷积神经网络（CNN）与循环神经网络（RNN）等多种架构。因此，MSAF可轻松集成至任意单模态网络中，实现特征融合，并复用现有的预训练单模态模型权重。为验证该融合模块的有效性，我们基于MSAF构建了三种多模态网络，分别应用于情感识别、情感分析和动作识别任务。实验结果表明，所提方法在各项任务中均取得具有竞争力的性能，显著优于其他专用网络及现有的多模态融合基准方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

MSAF：多模态分割注意力融合 | 论文 | HyperAI超神经