7 个月前

摘要

动作识别是视频理解领域中的关键研究方向。为有效利用异构数据源，本文提出一种新颖的多模态动作识别方法——音频-视频 Transformer（Audio-Video Transformer, AVT）。AVT通过融合视频与音频信号，提升动作识别的准确性，充分利用视频 Transformer 在时空表征上的优势。在多模态融合方面，传统方法在跨模态 Transformer 中简单拼接多模态 token，会带来巨大的计算与内存开销；为此，本文设计了一种音频-视频瓶颈 Transformer（audio-video bottleneck Transformer），有效降低跨模态交互的复杂度。为进一步提升多模态 Transformer 的学习效率，AVT 在训练中引入了自监督学习目标，包括音频-视频对比学习、音频-视频匹配学习，以及掩码音频与视频学习，从而将多样化的音频与视频表征映射至统一的多模态表示空间。此外，本文还提出一种掩码音频片段损失（masked audio segment loss），以增强模型对语义音频活动的建模能力。在三个公开数据集和两个自建数据集上的大量实验与消融研究一致验证了 AVT 的有效性。具体而言，在 Kinetics-Sounds 和 Epic-Kitchens-100 数据集上，AVT 分别比先前的最先进方法提升 8% 和 1%，且无需依赖外部训练数据。在 VGGSound 数据集上，AVT 通过利用音频信号，较先前最先进视频 Transformer 提升 10%。相较于另一项先进的多模态 Transformer，AVT 在 Epic-Kitchens-100 上实现 4.2% 的准确率提升，同时在计算效率方面更为优越，FLOPs 仅为后者的 1.3 倍。可视化结果进一步表明，音频提供了互补且具有判别性的特征，而 AVT 能够有效融合音频与视频信息，实现对动作的精准理解。

源 PDF