3 个月前

面向大众的 ImageNet-21K 预训练

面向大众的 ImageNet-21K 预训练

摘要

ImageNet-1K 是计算机视觉任务中深度学习模型预训练的主要数据集。相比之下,规模更大、类别更丰富的 ImageNet-21K 数据集在预训练中的应用却相对较少,主要原因在于其复杂性较高、获取难度大,且其潜在价值常被低估。本文旨在弥合这一差距,致力于使面向 ImageNet-21K 的高质量、高效率预训练方法对所有人开放。通过专门设计的预处理流程、对 WordNet 层次结构的有效利用,以及一种名为“语义 Softmax”(semantic softmax)的新型训练策略,我们证明了多种模型在众多数据集和任务上均能显著受益于 ImageNet-21K 的预训练,包括小型移动端模型。此外,我们在 ViT 和 Mixer 等前沿模型上的实验表明,所提出的方法优于以往的 ImageNet-21K 预训练方案。所提出的预训练流程高效、易于获取,并基于公开可访问的数据集,能够复现当前最先进的(SoTA)结果。相关训练代码与预训练模型已开源,地址为:https://github.com/Alibaba-MIIL/ImageNet21K

代码仓库

Alibaba-MIIL/ImageNet21K
官方
pytorch
GitHub 中提及
YutingLi0606/SURE
pytorch
GitHub 中提及
encounter1997/fp-detr
pytorch
GitHub 中提及
gregorbachmann/scaling_mlps
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-cifar-100ViT-B-16 (ImageNet-21K-P pretrain)
Percentage correct: 94.2
image-classification-on-stanford-carsTResNet-L-V2
Accuracy: 96.32
multi-label-classification-on-ms-cocoTResNet-L-V2, (ImageNet-21K-P pretraining, resolution 448)
mAP: 88.4
multi-label-classification-on-ms-cocoTResNet-L-V2, (ImageNet-21K-P pretraining, resolution 640)
mAP: 89.8
multi-label-classification-on-pascal-voc-2007ViT-B-16 (ImageNet-21K pretrained)
mAP: 93.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向大众的 ImageNet-21K 预训练 | 论文 | HyperAI超神经