3 个月前

多模态融合中的注意力瓶颈

多模态融合中的注意力瓶颈

摘要

人类通过同时处理并融合来自视觉、听觉等多种模态的高维输入来感知世界。相比之下,现有的机器感知模型通常具有模态专属性,且针对单模态基准进行优化,因此在多模态视频分类任务中,仍以在模型后期将各模态的最终表征或预测结果进行融合(即“晚期融合”)为主要范式。本文提出一种基于Transformer的新型架构,通过在多个网络层级引入“融合瓶颈”(fusion bottlenecks)实现多模态信息的融合。与传统的成对自注意力机制不同,该模型强制不同模态间的信息必须通过少量瓶颈隐变量进行传递,从而迫使模型在每种模态中提炼并压缩最相关的信息,仅共享必要的内容。我们发现,这种策略不仅提升了融合性能,同时显著降低了计算开销。通过全面的消融实验验证,该方法在多个音视频分类基准数据集(包括Audioset、Epic-Kitchens和VGGSound)上均取得了当前最优的性能表现。相关代码与模型将全部开源。

基准测试

基准方法指标
action-classification-on-kinetics-400MBT (AV)
Acc@1: 80.8
Acc@5: 94.6
action-classification-on-kinetics-soundsMBT (AV)
Top 1 Accuracy: 85
Top 5 Accuracy: 96.8
action-classification-on-moments-in-timeMBT (AV)
Top 1 Accuracy: 37.3
Top 5 Accuracy: 61.2
action-recognition-on-epic-kitchens-100MBT
Action@1: 43.4
Noun@1: 58
Verb@1: 64.8
audio-classification-on-audiosetMBT (AS-500K training + Video)
Test mAP: 0.496
audio-classification-on-vggsoundMBT (AV)
Top 5 Accuracy: 85.6
audio-classification-on-vggsoundMBT (A)
Top 1 Accuracy: 52.3
Top 5 Accuracy: 78.1
audio-classification-on-vggsoundMBT (V)
Top 1 Accuracy: 51.2
Top 5 Accuracy: 72.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态融合中的注意力瓶颈 | 论文 | HyperAI超神经