3 个月前

基于掩码特征预测的自监督视觉预训练

基于掩码特征预测的自监督视觉预训练

摘要

我们提出了一种用于视频模型自监督预训练的掩码特征预测方法(Masked Feature Prediction, MaskFeat)。该方法首先随机掩码输入序列中的一部分,随后预测被掩码区域的特征。我们系统研究了五种不同类型的特征,发现手工设计的梯度方向直方图(Histograms of Oriented Gradients, HOG)在性能与效率方面均表现尤为出色。我们观察到,HOG中局部对比度归一化(local contrast normalization)对于取得良好结果至关重要,这一发现与早期将HOG应用于视觉识别的研究结果一致。所提出的MaskFeat方法能够有效学习丰富的视觉知识,并驱动大规模基于Transformer的模型。在未使用额外模型参数或监督信号的前提下,仅在无标签视频上进行预训练,MaskFeat在Kinetics-400上取得了86.7%的准确率(MViT-L),在Kinetics-600上达到88.3%,在Kinetics-700上达到80.4%,在AVA数据集上获得39.8 mAP,以及在SSv2数据集上达到75.0%的准确率,均创下新纪录。此外,MaskFeat还可推广至图像输入,可将其视为单帧视频,从而在ImageNet数据集上取得了具有竞争力的性能表现。

代码仓库

yyk-wew/semanticmim
pytorch
GitHub 中提及
facebookresearch/SlowFast
官方
pytorch
GitHub 中提及
Westlake-AI/openmixup
pytorch
GitHub 中提及
mx-mark/dmjd
pytorch
GitHub 中提及
mx-mark/videotransformer-pytorch
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400MaskFeat (K600, MViT-L)
Acc@1: 87.0
Acc@5: 97.4
action-classification-on-kinetics-400MaskFeat (no extra data, MViT-L)
Acc@1: 86.7
Acc@5: 97.3
action-classification-on-kinetics-600MaskFeat (no extra data, MViT-L)
Top-1 Accuracy: 88.3
Top-5 Accuracy: 98.0
action-classification-on-kinetics-700MaskFeat (no extra data, MViT-L)
Top-1 Accuracy: 80.4
Top-5 Accuracy: 95.7
action-recognition-in-videos-on-somethingMaskFeat (Kinetics600 pretrain, MViT-L)
GFLOPs: 2828*3
Parameters: 218
Top-1 Accuracy: 75.0
Top-5 Accuracy: 95.0
action-recognition-on-ava-v2-2MaskFeat (Kinetics-600 pretrain, MViT-L)
mAP: 39.8
self-supervised-image-classification-on-1MaskFeat (ViT-L)
Number of Params: 307M
Top 1 Accuracy: 85.7%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于掩码特征预测的自监督视觉预训练 | 论文 | HyperAI超神经