
摘要
规模是构建强大基础模型的主要因素,这些模型可以很好地泛化到各种下游任务中。然而,训练具有数十亿参数的视频基础模型仍然具有挑战性。本文表明,视频掩码自编码器(VideoMAE)是一种可扩展且通用的自监督预训练方法,适用于构建视频基础模型。我们通过核心设计在模型和数据两个方面对VideoMAE进行了扩展。具体而言,我们提出了一种双掩码策略以实现高效的预训练,其中编码器在视频令牌的一个子集上运行,而解码器则处理另一个子集的视频令牌。尽管由于编码器中的高掩码率使得VideoMAE非常高效,但掩码解码器仍能进一步降低整体计算成本。这使得能够在视频领域高效地预训练数十亿级别的模型成为可能。此外,我们采用了逐步训练范式,首先在一个多样化的多源未标记数据集上进行初始预训练,随后在一个混合标记数据集上进行再预训练。最终,我们成功地训练了一个具有十亿参数的视频ViT模型,在Kinetics(K400上的准确率为90.0%,K600上的准确率为89.9%)和Something-Something(V1上的准确率为68.7%,V2上的准确率为77.0%)数据集上达到了新的最先进性能。此外,我们在多种下游任务中广泛验证了预训练的视频ViT模型,证明了其作为通用视频表示学习器的有效性。代码和模型可在以下网址获取:\url{https://github.com/OpenGVLab/VideoMAEv2}。
代码仓库
OpenGVLab/VideoMAEv2
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | VideoMAE V2-g | Acc@1: 88.5 Acc@5: 98.1 |
| action-classification-on-kinetics-400 | VideoMAE V2-g (64x266x266) | Acc@1: 90.0 Acc@5: 98.4 |
| action-classification-on-kinetics-600 | VideoMAE V2-g | Top-1 Accuracy: 88.8 Top-5 Accuracy: 98.2 |
| action-classification-on-kinetics-600 | VideoMAE V2-g (64x266x266) | Top-1 Accuracy: 89.9 Top-5 Accuracy: 98.5 |
| action-recognition-in-videos-on-ava-v2-2 | VideoMAE V2 | mAP (Val): 18.24 |
| action-recognition-in-videos-on-hmdb-51 | VideoMAE V2-g | Average accuracy of 3 splits: 88.1 |
| action-recognition-in-videos-on-something | VideoMAE V2-g | GFLOPs: 2544x6 Parameters: 1013 Top-1 Accuracy: 77.0 Top-5 Accuracy: 95.9 |
| action-recognition-in-videos-on-something-1 | VideoMAE V2-g | Top 1 Accuracy: 68.7 Top 5 Accuracy: 91.9 |
| action-recognition-in-videos-on-ucf101 | VideoMAE V2-g | 3-fold Accuracy: 99.6 |
| action-recognition-on-ava-v2-2 | VideoMAE V2-g | mAP: 42.6 |
| self-supervised-action-recognition-on-ucf101 | VideoMAE V2-g | 3-fold Accuracy: 99.6 |
| spatio-temporal-action-localization-on-ava | VideoMAE V2-g | val mAP: 42.6 |
| temporal-action-localization-on-fineaction | VideoMAE V2-g | mAP: 18.24 mAP IOU@0.5: 29.07 mAP IOU@0.75: 17.66 mAP IOU@0.95: 5.07 |
| temporal-action-localization-on-thumos14 | ActionFormer (VideoMAE V2-g features) | Avg mAP (0.3:0.7): 69.6 mAP IOU@0.3: 84.0 mAP IOU@0.4: 79.6 mAP IOU@0.5: 73.0 mAP IOU@0.6: 63.5 mAP IOU@0.7: 47.7 |