Mannat SinghLaura GustafsonAaron AdcockVinicius de Freitas ReisBugra GedikRaj Prateek KosarajuDhruv MahajanRoss GirshickPiotr DollárLaurens van der Maaten

摘要
模型预训练是现代视觉识别系统的核心基础。尽管在ImageNet等数据集上采用完全监督方式的预训练仍是当前事实上的标准,但近期研究表明,大规模弱监督预训练在某些情况下可超越完全监督方法的表现。本文重新审视了基于标签(hashtag)监督的弱监督预训练方法,采用现代残差网络架构,并利用迄今为止规模最大的图像与对应标签数据集进行实验。我们评估了所得到模型在多种迁移学习场景下的性能,包括零样本迁移(zero-shot transfer)。同时,我们将这些模型与大规模自监督学习所得模型进行了对比。结果表明,我们的弱监督模型在所有测试场景中均表现出极强的竞争力,且显著优于相应的自监督模型。此外,我们还深入探究了模型是否习得了潜在的有害关联或刻板印象。总体而言,本研究为在视觉识别系统开发中采用弱监督学习提供了有力支持。我们提出的模型名为“通过标签实现的弱监督”(Supervised Weakly through hashtAGs, SWAG),已公开发布,可供研究社区使用。
代码仓库
facebookresearch/SWAG
官方
pytorch
GitHub 中提及
Expedit-LargeScale-Vision-Transformer/Expedit-SWAG
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-cub-200-1 | SWAG (ViT H/14) | Accuracy: 91.7 |
| image-classification-on-imagenet | SWAG (ViT H/14) | GFLOPs: 1018.8 Number of params: 633.5M Top 1 Accuracy: 88.6% |
| image-classification-on-imagenet-real | SWAG (RegNetY 128GF) | Accuracy: 90.7% |
| image-classification-on-imagenet-v2 | SWAG (ViT H/14) | Top 1 Accuracy: 81.1 |
| image-classification-on-inaturalist-2018 | SWAG (ViT H/14) | Top-1 Accuracy: 86.0% |
| image-classification-on-objectnet | RegNetY 128GF (Platt) | Top-1 Accuracy: 64.3 |
| image-classification-on-objectnet | ViT H/14 (Platt) | Top-1 Accuracy: 60 |
| image-classification-on-objectnet | SWAG (ViT H/14) | Top-1 Accuracy: 69.5 |
| image-classification-on-objectnet | ViT B/16 | Top-1 Accuracy: 48.9 |
| image-classification-on-objectnet | ViT L/16 (Platt) | Top-1 Accuracy: 57.3 |
| image-classification-on-places365-standard | SWAG (ViT H/14) | Top 1 Accuracy: 60.7 |