3 个月前

MAR:用于高效动作识别的掩码自编码器

MAR:用于高效动作识别的掩码自编码器

摘要

传统的视频识别方法通常对完整输入视频进行处理,由于视频中广泛存在时空冗余,这种做法效率较低。近期在掩码视频建模(如VideoMAE)方面的进展表明,仅依赖有限的视觉信息,原始视觉Transformer(ViT)也具备补全时空上下文的能力。受此启发,我们提出了掩码动作识别(Masked Action Recognition, MAR),通过丢弃部分图像块(patches)并仅在视频的局部区域上进行计算,有效减少了冗余计算。MAR包含两个不可或缺的组成部分:单元级运行掩码(cell running masking)与桥接分类器(bridging classifier)。具体而言,为使ViT能够更轻松地感知可见图像块之外的细节信息,我们提出了单元级运行掩码机制,该机制通过保持视频中的时空相关性,确保同一空间位置的图像块能够依次被观察,从而便于重建。此外,我们发现尽管部分可见特征能够重建出语义清晰的不可见图像块,但在分类任务上仍难以取得高精度。为解决这一问题,我们引入了桥接分类器,用以弥合ViT在重建任务中编码的特征与专用于分类任务的特征之间的语义鸿沟。实验结果表明,所提出的MAR方法将ViT的计算开销降低了53%。大量实验证明,MAR在各类基准上均显著优于现有ViT模型。特别地,在Kinetics-400和Something-Something v2数据集上,使用MAR训练的ViT-Large模型性能超越了采用标准训练方案的ViT-Huge模型,且其计算开销仅为ViT-Huge的14.5%。这一结果充分验证了MAR在提升模型效率与性能方面的显著优势。

代码仓库

基准测试

基准方法指标
action-classification-on-kinetics-400MAR (50% mask, ViT-B, 16x4)
Acc@1: 81.0
Acc@5: 94.4
action-classification-on-kinetics-400MAR (75% mask, ViT-L, 16x4)
Acc@1: 83.9
Acc@5: 96.0
action-classification-on-kinetics-400MAR (75% mask, ViT-B, 16x4)
Acc@1: 79.4
Acc@5: 93.7
action-classification-on-kinetics-400MAR (50% mask, ViT-L, 16x4)
Acc@1: 85.3
Acc@5: 96.3
action-recognition-in-videos-on-somethingMAR (75% mask, ViT-B, 16x4)
GFLOPs: 41x6
Parameters: 94
Top-1 Accuracy: 69.5
Top-5 Accuracy: 91.9
action-recognition-in-videos-on-somethingMAR (75% mask, ViT-L, 16x4)
GFLOPs: 131x6
Parameters: 311
Top-1 Accuracy: 73.8
Top-5 Accuracy: 94.4
action-recognition-in-videos-on-somethingMAR (50% mask, ViT-L, 16x4)
GFLOPs: 276x6
Parameters: 311
Top-1 Accuracy: 74.7
Top-5 Accuracy: 94.9
action-recognition-in-videos-on-somethingMAR (50% mask, ViT-B, 16x4)
GFLOPs: 86x6
Parameters: 94
Top-1 Accuracy: 71.0
Top-5 Accuracy: 92.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MAR:用于高效动作识别的掩码自编码器 | 论文 | HyperAI超神经