
摘要
在晚期融合(late fusion)方法中,各模态分别通过独立的单模态卷积神经网络(CNN)流进行处理,最终在输出阶段对各模态的得分进行融合。由于其结构简单,晚期融合至今仍是众多前沿多模态应用中的主流方法。本文提出一种简单的神经网络模块,用于在卷积神经网络中有效利用多模态知识。该模块名为多模态迁移模块(Multimodal Transfer Module, MMTM),可灵活嵌入特征层次的不同层级,实现渐进式的模态融合。MMTM通过压缩(squeeze)与激励(excitation)操作,利用多模态之间的互补信息,对每个CNN流中的通道级特征进行重新校准。与现有的中间融合方法相比,所提模块可适用于具有不同空间维度的卷积层中的特征模态融合。此外,该方法的另一优势在于,其可几乎不改变原有单模态分支网络结构地进行添加,从而允许各分支使用已有的预训练权重进行初始化。实验结果表明,所提出的框架显著提升了知名多模态网络的识别准确率。在涵盖动态手势识别、语音增强以及基于RGB图像与骨骼关节点的动作识别等任务的四个数据集上,本方法均取得了当前最优或具有竞争力的性能表现。
代码仓库
haamoon/mmtm
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-ntu-rgbd | MMTM (RGB+Pose) | Accuracy (CS): 91.99 |
| hand-gesture-recognition-on-egogesture-1 | MMTM | Accuracy: 93.51 |
| hand-gesture-recognition-on-nvgesture-1 | MMTM | Accuracy: 86.93 |