
摘要
我们提出了一种用于视频模型自监督预训练的掩码特征预测方法(Masked Feature Prediction, MaskFeat)。该方法首先随机掩码输入序列中的一部分,随后预测被掩码区域的特征。我们系统研究了五种不同类型的特征,发现手工设计的梯度方向直方图(Histograms of Oriented Gradients, HOG)在性能与效率方面均表现尤为出色。我们观察到,HOG中局部对比度归一化(local contrast normalization)对于取得良好结果至关重要,这一发现与早期将HOG应用于视觉识别的研究结果一致。所提出的MaskFeat方法能够有效学习丰富的视觉知识,并驱动大规模基于Transformer的模型。在未使用额外模型参数或监督信号的前提下,仅在无标签视频上进行预训练,MaskFeat在Kinetics-400上取得了86.7%的准确率(MViT-L),在Kinetics-600上达到88.3%,在Kinetics-700上达到80.4%,在AVA数据集上获得39.8 mAP,以及在SSv2数据集上达到75.0%的准确率,均创下新纪录。此外,MaskFeat还可推广至图像输入,可将其视为单帧视频,从而在ImageNet数据集上取得了具有竞争力的性能表现。
代码仓库
yyk-wew/semanticmim
pytorch
GitHub 中提及
facebookresearch/SlowFast
官方
pytorch
GitHub 中提及
Westlake-AI/openmixup
pytorch
GitHub 中提及
mx-mark/dmjd
pytorch
GitHub 中提及
mx-mark/videotransformer-pytorch
pytorch
GitHub 中提及
open-mmlab/mmselfsup
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | MaskFeat (K600, MViT-L) | Acc@1: 87.0 Acc@5: 97.4 |
| action-classification-on-kinetics-400 | MaskFeat (no extra data, MViT-L) | Acc@1: 86.7 Acc@5: 97.3 |
| action-classification-on-kinetics-600 | MaskFeat (no extra data, MViT-L) | Top-1 Accuracy: 88.3 Top-5 Accuracy: 98.0 |
| action-classification-on-kinetics-700 | MaskFeat (no extra data, MViT-L) | Top-1 Accuracy: 80.4 Top-5 Accuracy: 95.7 |
| action-recognition-in-videos-on-something | MaskFeat (Kinetics600 pretrain, MViT-L) | GFLOPs: 2828*3 Parameters: 218 Top-1 Accuracy: 75.0 Top-5 Accuracy: 95.0 |
| action-recognition-on-ava-v2-2 | MaskFeat (Kinetics-600 pretrain, MViT-L) | mAP: 39.8 |
| self-supervised-image-classification-on-1 | MaskFeat (ViT-L) | Number of Params: 307M Top 1 Accuracy: 85.7% |