摘要

预训练表征的迁移能够显著提升深度神经网络在视觉任务中的样本效率，并简化超参数调优过程。我们重新审视了在大规模监督数据集上进行预训练，随后在目标任务上微调模型的经典范式。通过扩大预训练规模，并提出一种简洁的训练方法，我们称之为大迁移（Big Transfer，简称BiT），在超过20个数据集上取得了优异的性能表现。BiT在极为广泛的数据规模范围内均表现出色——从每类仅1个样本到总计100万样本的场景均能有效工作。在ImageNet（ILSVRC-2012）数据集上，BiT达到87.5%的Top-1准确率；在CIFAR-10上达到99.4%；在包含19个任务的视觉任务适应基准（Visual Task Adaptation Benchmark, VTAB）上达到76.3%。在小样本场景下，BiT在每类仅10个样本的情况下，于ILSVRC-2012上仍取得76.8%的准确率，在CIFAR-10上达到97.0%。我们对影响迁移性能的关键组件进行了深入分析，揭示了其成功背后的机制。

源 PDF