
摘要
人类通过同时处理并融合来自视觉、听觉等多种模态的高维输入来感知世界。相比之下,现有的机器感知模型通常具有模态专属性,且针对单模态基准进行优化,因此在多模态视频分类任务中,仍以在模型后期将各模态的最终表征或预测结果进行融合(即“晚期融合”)为主要范式。本文提出一种基于Transformer的新型架构,通过在多个网络层级引入“融合瓶颈”(fusion bottlenecks)实现多模态信息的融合。与传统的成对自注意力机制不同,该模型强制不同模态间的信息必须通过少量瓶颈隐变量进行传递,从而迫使模型在每种模态中提炼并压缩最相关的信息,仅共享必要的内容。我们发现,这种策略不仅提升了融合性能,同时显著降低了计算开销。通过全面的消融实验验证,该方法在多个音视频分类基准数据集(包括Audioset、Epic-Kitchens和VGGSound)上均取得了当前最优的性能表现。相关代码与模型将全部开源。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | MBT (AV) | Acc@1: 80.8 Acc@5: 94.6 |
| action-classification-on-kinetics-sounds | MBT (AV) | Top 1 Accuracy: 85 Top 5 Accuracy: 96.8 |
| action-classification-on-moments-in-time | MBT (AV) | Top 1 Accuracy: 37.3 Top 5 Accuracy: 61.2 |
| action-recognition-on-epic-kitchens-100 | MBT | Action@1: 43.4 Noun@1: 58 Verb@1: 64.8 |
| audio-classification-on-audioset | MBT (AS-500K training + Video) | Test mAP: 0.496 |
| audio-classification-on-vggsound | MBT (AV) | Top 5 Accuracy: 85.6 |
| audio-classification-on-vggsound | MBT (A) | Top 1 Accuracy: 52.3 Top 5 Accuracy: 78.1 |
| audio-classification-on-vggsound | MBT (V) | Top 1 Accuracy: 51.2 Top 5 Accuracy: 72.6 |