
摘要
基于注意力机制的神经网络,如视觉Transformer(Vision Transformer, ViT),近期在众多计算机视觉基准测试中取得了最先进水平的性能。规模是实现优异结果的关键因素,因此深入理解模型的扩展特性,对于有效设计下一代模型至关重要。尽管Transformer语言模型的扩展规律已有研究,但视觉Transformer的扩展特性尚不明确。为此,我们系统地对ViT模型及其训练数据进行了大规模的上下扩展,全面刻画了误差率、数据量与计算资源之间的关系。在此过程中,我们对ViT的架构和训练方法进行了优化,显著降低了内存消耗,并提升了模型的准确率。最终,我们成功训练出一个参数量达二十亿的ViT模型,在ImageNet数据集上实现了90.45%的Top-1准确率,创下新的纪录。此外,该模型在少样本迁移学习任务中也表现出色,例如在每类仅提供10个样本的情况下,仍能达到84.86%的Top-1准确率。
代码仓库
google-research/big_vision
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet-real | ViT-G/14 | Accuracy: 90.81% |
| image-classification-on-imagenet-v2 | ViT-G/14 | Top 1 Accuracy: 83.33 |
| image-classification-on-objectnet | NS (Eff.-L2) | Top-1 Accuracy: 68.5 |
| image-classification-on-objectnet | ViT-G/14 | Top-1 Accuracy: 70.53 |
| image-classification-on-vtab-1k-1 | ViT-G/14 | Top-1 Accuracy: 78.29 |