
摘要
ImageNet-1K 是计算机视觉任务中深度学习模型预训练的主要数据集。相比之下,规模更大、类别更丰富的 ImageNet-21K 数据集在预训练中的应用却相对较少,主要原因在于其复杂性较高、获取难度大,且其潜在价值常被低估。本文旨在弥合这一差距,致力于使面向 ImageNet-21K 的高质量、高效率预训练方法对所有人开放。通过专门设计的预处理流程、对 WordNet 层次结构的有效利用,以及一种名为“语义 Softmax”(semantic softmax)的新型训练策略,我们证明了多种模型在众多数据集和任务上均能显著受益于 ImageNet-21K 的预训练,包括小型移动端模型。此外,我们在 ViT 和 Mixer 等前沿模型上的实验表明,所提出的方法优于以往的 ImageNet-21K 预训练方案。所提出的预训练流程高效、易于获取,并基于公开可访问的数据集,能够复现当前最先进的(SoTA)结果。相关训练代码与预训练模型已开源,地址为:https://github.com/Alibaba-MIIL/ImageNet21K
代码仓库
Alibaba-MIIL/ImageNet21K
官方
pytorch
GitHub 中提及
YutingLi0606/SURE
pytorch
GitHub 中提及
MS-Mind/MS-Code-01/tree/main/mass
mindspore
encounter1997/fp-detr
pytorch
GitHub 中提及
gregorbachmann/scaling_mlps
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cifar-100 | ViT-B-16 (ImageNet-21K-P pretrain) | Percentage correct: 94.2 |
| image-classification-on-stanford-cars | TResNet-L-V2 | Accuracy: 96.32 |
| multi-label-classification-on-ms-coco | TResNet-L-V2, (ImageNet-21K-P pretraining, resolution 448) | mAP: 88.4 |
| multi-label-classification-on-ms-coco | TResNet-L-V2, (ImageNet-21K-P pretraining, resolution 640) | mAP: 89.8 |
| multi-label-classification-on-pascal-voc-2007 | ViT-B-16 (ImageNet-21K pretrained) | mAP: 93.1 |