6 个月前

摘要

传统的视频识别方法通常对完整输入视频进行处理，由于视频中广泛存在时空冗余，这种做法效率较低。近期在掩码视频建模（如VideoMAE）方面的进展表明，仅依赖有限的视觉信息，原始视觉Transformer（ViT）也具备补全时空上下文的能力。受此启发，我们提出了掩码动作识别（Masked Action Recognition, MAR），通过丢弃部分图像块（patches）并仅在视频的局部区域上进行计算，有效减少了冗余计算。MAR包含两个不可或缺的组成部分：单元级运行掩码（cell running masking）与桥接分类器（bridging classifier）。具体而言，为使ViT能够更轻松地感知可见图像块之外的细节信息，我们提出了单元级运行掩码机制，该机制通过保持视频中的时空相关性，确保同一空间位置的图像块能够依次被观察，从而便于重建。此外，我们发现尽管部分可见特征能够重建出语义清晰的不可见图像块，但在分类任务上仍难以取得高精度。为解决这一问题，我们引入了桥接分类器，用以弥合ViT在重建任务中编码的特征与专用于分类任务的特征之间的语义鸿沟。实验结果表明，所提出的MAR方法将ViT的计算开销降低了53%。大量实验证明，MAR在各类基准上均显著优于现有ViT模型。特别地，在Kinetics-400和Something-Something v2数据集上，使用MAR训练的ViT-Large模型性能超越了采用标准训练方案的ViT-Huge模型，且其计算开销仅为ViT-Huge的14.5%。这一结果充分验证了MAR在提升模型效率与性能方面的显著优势。

源 PDF