3 个月前

MMTM:用于CNN融合的多模态迁移模块

MMTM:用于CNN融合的多模态迁移模块

摘要

在晚期融合(late fusion)方法中,各模态分别通过独立的单模态卷积神经网络(CNN)流进行处理,最终在输出阶段对各模态的得分进行融合。由于其结构简单,晚期融合至今仍是众多前沿多模态应用中的主流方法。本文提出一种简单的神经网络模块,用于在卷积神经网络中有效利用多模态知识。该模块名为多模态迁移模块(Multimodal Transfer Module, MMTM),可灵活嵌入特征层次的不同层级,实现渐进式的模态融合。MMTM通过压缩(squeeze)与激励(excitation)操作,利用多模态之间的互补信息,对每个CNN流中的通道级特征进行重新校准。与现有的中间融合方法相比,所提模块可适用于具有不同空间维度的卷积层中的特征模态融合。此外,该方法的另一优势在于,其可几乎不改变原有单模态分支网络结构地进行添加,从而允许各分支使用已有的预训练权重进行初始化。实验结果表明,所提出的框架显著提升了知名多模态网络的识别准确率。在涵盖动态手势识别、语音增强以及基于RGB图像与骨骼关节点的动作识别等任务的四个数据集上,本方法均取得了当前最优或具有竞争力的性能表现。

代码仓库

haamoon/mmtm
pytorch
GitHub 中提及

基准测试

基准方法指标
action-recognition-in-videos-on-ntu-rgbdMMTM (RGB+Pose)
Accuracy (CS): 91.99
hand-gesture-recognition-on-egogesture-1MMTM
Accuracy: 93.51
hand-gesture-recognition-on-nvgesture-1MMTM
Accuracy: 86.93

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MMTM:用于CNN融合的多模态迁移模块 | 论文 | HyperAI超神经