6 个月前

摘要

ImageNet-1K 是计算机视觉任务中深度学习模型预训练的主要数据集。相比之下，规模更大、类别更丰富的 ImageNet-21K 数据集在预训练中的应用却相对较少，主要原因在于其复杂性较高、获取难度大，且其潜在价值常被低估。本文旨在弥合这一差距，致力于使面向 ImageNet-21K 的高质量、高效率预训练方法对所有人开放。通过专门设计的预处理流程、对 WordNet 层次结构的有效利用，以及一种名为“语义 Softmax”（semantic softmax）的新型训练策略，我们证明了多种模型在众多数据集和任务上均能显著受益于 ImageNet-21K 的预训练，包括小型移动端模型。此外，我们在 ViT 和 Mixer 等前沿模型上的实验表明，所提出的方法优于以往的 ImageNet-21K 预训练方案。所提出的预训练流程高效、易于获取，并基于公开可访问的数据集，能够复现当前最先进的（SoTA）结果。相关训练代码与预训练模型已开源，地址为：https://github.com/Alibaba-MIIL/ImageNet21K

源 PDF