
摘要
传统的视频识别方法通常对完整输入视频进行处理,由于视频中广泛存在时空冗余,这种做法效率较低。近期在掩码视频建模(如VideoMAE)方面的进展表明,仅依赖有限的视觉信息,原始视觉Transformer(ViT)也具备补全时空上下文的能力。受此启发,我们提出了掩码动作识别(Masked Action Recognition, MAR),通过丢弃部分图像块(patches)并仅在视频的局部区域上进行计算,有效减少了冗余计算。MAR包含两个不可或缺的组成部分:单元级运行掩码(cell running masking)与桥接分类器(bridging classifier)。具体而言,为使ViT能够更轻松地感知可见图像块之外的细节信息,我们提出了单元级运行掩码机制,该机制通过保持视频中的时空相关性,确保同一空间位置的图像块能够依次被观察,从而便于重建。此外,我们发现尽管部分可见特征能够重建出语义清晰的不可见图像块,但在分类任务上仍难以取得高精度。为解决这一问题,我们引入了桥接分类器,用以弥合ViT在重建任务中编码的特征与专用于分类任务的特征之间的语义鸿沟。实验结果表明,所提出的MAR方法将ViT的计算开销降低了53%。大量实验证明,MAR在各类基准上均显著优于现有ViT模型。特别地,在Kinetics-400和Something-Something v2数据集上,使用MAR训练的ViT-Large模型性能超越了采用标准训练方案的ViT-Huge模型,且其计算开销仅为ViT-Huge的14.5%。这一结果充分验证了MAR在提升模型效率与性能方面的显著优势。
代码仓库
alibaba-mmai-research/masked-action-recognition
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | MAR (50% mask, ViT-B, 16x4) | Acc@1: 81.0 Acc@5: 94.4 |
| action-classification-on-kinetics-400 | MAR (75% mask, ViT-L, 16x4) | Acc@1: 83.9 Acc@5: 96.0 |
| action-classification-on-kinetics-400 | MAR (75% mask, ViT-B, 16x4) | Acc@1: 79.4 Acc@5: 93.7 |
| action-classification-on-kinetics-400 | MAR (50% mask, ViT-L, 16x4) | Acc@1: 85.3 Acc@5: 96.3 |
| action-recognition-in-videos-on-something | MAR (75% mask, ViT-B, 16x4) | GFLOPs: 41x6 Parameters: 94 Top-1 Accuracy: 69.5 Top-5 Accuracy: 91.9 |
| action-recognition-in-videos-on-something | MAR (75% mask, ViT-L, 16x4) | GFLOPs: 131x6 Parameters: 311 Top-1 Accuracy: 73.8 Top-5 Accuracy: 94.4 |
| action-recognition-in-videos-on-something | MAR (50% mask, ViT-L, 16x4) | GFLOPs: 276x6 Parameters: 311 Top-1 Accuracy: 74.7 Top-5 Accuracy: 94.9 |
| action-recognition-in-videos-on-something | MAR (50% mask, ViT-B, 16x4) | GFLOPs: 86x6 Parameters: 94 Top-1 Accuracy: 71.0 Top-5 Accuracy: 92.8 |