3 个月前

重新审视视觉感知模型的弱监督预训练

重新审视视觉感知模型的弱监督预训练

摘要

模型预训练是现代视觉识别系统的核心基础。尽管在ImageNet等数据集上采用完全监督方式的预训练仍是当前事实上的标准,但近期研究表明,大规模弱监督预训练在某些情况下可超越完全监督方法的表现。本文重新审视了基于标签(hashtag)监督的弱监督预训练方法,采用现代残差网络架构,并利用迄今为止规模最大的图像与对应标签数据集进行实验。我们评估了所得到模型在多种迁移学习场景下的性能,包括零样本迁移(zero-shot transfer)。同时,我们将这些模型与大规模自监督学习所得模型进行了对比。结果表明,我们的弱监督模型在所有测试场景中均表现出极强的竞争力,且显著优于相应的自监督模型。此外,我们还深入探究了模型是否习得了潜在的有害关联或刻板印象。总体而言,本研究为在视觉识别系统开发中采用弱监督学习提供了有力支持。我们提出的模型名为“通过标签实现的弱监督”(Supervised Weakly through hashtAGs, SWAG),已公开发布,可供研究社区使用。

代码仓库

facebookresearch/SWAG
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
fine-grained-image-classification-on-cub-200-1SWAG (ViT H/14)
Accuracy: 91.7
image-classification-on-imagenetSWAG (ViT H/14)
GFLOPs: 1018.8
Number of params: 633.5M
Top 1 Accuracy: 88.6%
image-classification-on-imagenet-realSWAG (RegNetY 128GF)
Accuracy: 90.7%
image-classification-on-imagenet-v2SWAG (ViT H/14)
Top 1 Accuracy: 81.1
image-classification-on-inaturalist-2018SWAG (ViT H/14)
Top-1 Accuracy: 86.0%
image-classification-on-objectnetRegNetY 128GF (Platt)
Top-1 Accuracy: 64.3
image-classification-on-objectnetViT H/14 (Platt)
Top-1 Accuracy: 60
image-classification-on-objectnetSWAG (ViT H/14)
Top-1 Accuracy: 69.5
image-classification-on-objectnetViT B/16
Top-1 Accuracy: 48.9
image-classification-on-objectnetViT L/16 (Platt)
Top-1 Accuracy: 57.3
image-classification-on-places365-standardSWAG (ViT H/14)
Top 1 Accuracy: 60.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新审视视觉感知模型的弱监督预训练 | 论文 | HyperAI超神经