4 个月前

大规模掩码自动编码器(MAE)预训练在十亿规模预训练中的有效性

大规模掩码自动编码器(MAE)预训练在十亿规模预训练中的有效性

摘要

本文重新审视了计算机视觉中用于视觉识别任务的标准预训练然后微调范式。通常情况下,最先进的基础模型使用包含数十亿图像的大规模(弱)监督数据集进行预训练。我们引入了一个额外的预预训练阶段,该阶段简单且利用自监督的掩码自动编码器(MAE)技术来初始化模型。尽管此前的研究表明MAE仅随着模型规模的增大而扩展,但我们发现它同样随着训练数据集规模的增大而扩展。因此,基于MAE的预预训练既适用于模型规模也适用于数据规模的扩展,使其成为训练基础模型的有效方法。无论是在不同模型规模(从数百万到数十亿参数)还是在不同数据集大小(从数百万到数十亿图像)上,预预训练都能显著提高模型收敛速度和下游任务迁移性能。我们在10个不同的视觉识别任务上测量了预预训练的有效性,这些任务涵盖了图像分类、视频识别、目标检测、少样本分类和零样本识别。我们的最大规模模型在iNaturalist-18(91.7%)、ImageNet-ReaL(91.1%)、单样本ImageNet-1k(63.6%)以及Food-101上的零样本迁移任务中取得了新的最佳结果(96.2%)。本研究揭示了即使在使用数十亿图像进行网络规模预训练的情况下,模型初始化仍然发挥着重要作用,并且我们的模型已公开提供。

代码仓库

facebookresearch/maws
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-recognition-in-videos-on-somethingMAWS (ViT-L)
Top-1 Accuracy: 74.4
few-shot-image-classification-on-imagenet-1-1MAWS (ViT-6.5B)
Top 1 Accuracy: 63.6
few-shot-image-classification-on-imagenet-1-1MAWS (ViT-2B)
Top 1 Accuracy: 62.1
few-shot-image-classification-on-imagenet-1-1MAWS (ViT-H)
Top 1 Accuracy: 57.1
few-shot-image-classification-on-imagenet-10MAWS (ViT-H)
Top 1 Accuracy: 82.5
few-shot-image-classification-on-imagenet-10MAWS (ViT-2B)
Top 1 Accuracy: 83.7
few-shot-image-classification-on-imagenet-10MAWS (ViT-6.5B)
Top 1 Accuracy: 84.6
few-shot-image-classification-on-imagenet-5MAWS (ViT-H)
Top 1 Accuracy: 79.8
few-shot-image-classification-on-imagenet-5MAWS (ViT-2B)
Top 1 Accuracy: 81.5
few-shot-image-classification-on-imagenet-5MAWS (ViT-6.5B)
Top 1 Accuracy: 82.6
few-shot-image-classification-on-inaturalist-1MAWS (ViT-2B)
Top 1 Accuracy: 35.5
few-shot-image-classification-on-inaturalist-2MAWS (ViT-2B)
Top 1 Accuracy: 72.8
few-shot-image-classification-on-inaturalist-3MAWS (ViT-2B)
Top 1 Accuracy: 80.3
image-classification-on-imagenetMAWS (ViT-6.5B)
Number of params: 6500M
Top 1 Accuracy: 90.1%
image-classification-on-imagenetMAWS (ViT-L)
Top 1 Accuracy: 88.8%
image-classification-on-imagenetMAWS (ViT-2B)
Number of params: 2000M
Top 1 Accuracy: 89.8%
image-classification-on-imagenetMAWS (ViT-B)
Top 1 Accuracy: 86.8%
image-classification-on-imagenetMAWS (ViT-H)
Number of params: 650M
Top 1 Accuracy: 89.5%
image-classification-on-imagenet-realMAWS (ViT-6.5B)
Accuracy: 91.1%
image-classification-on-imagenet-realMAWS (ViT-H)
Accuracy: 90.8%
image-classification-on-imagenet-realMAWS (ViT-2B)
Accuracy: 90.9%
image-classification-on-imagenet-v2MAWS (ViT-6.5B)
Top 1 Accuracy: 84.0
image-classification-on-imagenet-v2MAWS (ViT-2B)
Top 1 Accuracy: 83.0
image-classification-on-inaturalist-2018MAWS (ViT-2B)
Top-1 Accuracy: 91.3%
image-classification-on-objectnetMAWS (ViT-H)
Top-1 Accuracy: 72.6
image-classification-on-objectnetMAWS (ViT-2B)
Top-1 Accuracy: 75.8
image-classification-on-objectnetMAWS (ViT-6.5B)
Top-1 Accuracy: 77.9
zero-shot-transfer-image-classification-on-1MAWS (ViT-2B)
Accuracy (Private): 82.1
zero-shot-transfer-image-classification-on-1MAWS (ViT-H)
Accuracy (Private): 81.1
zero-shot-transfer-image-classification-on-17MAWS (ViT-2B)
Top 1 Accuracy: 96.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模掩码自动编码器(MAE)预训练在十亿规模预训练中的有效性 | 论文 | HyperAI超神经