
摘要
我们提出了一种名为BASIC的组合缩放方法,在不使用任何带有标签的ImageNet示例的情况下,该方法在ImageNet ILSVRC-2012验证集上达到了85.7%的Top-1准确率。这一准确率比已发表的最佳类似模型CLIP和ALIGN高出9.3%。我们的BASIC模型在鲁棒性基准测试中也表现出显著的改进。例如,在包含自然分布偏移的5个测试集(如ImageNet-{A,R,V2,Sketch}和ObjectNet)上,我们的模型实现了84.3%的Top-1平均准确率,仅比其原始ImageNet准确率略有下降。为了达到这些结果,我们在三个维度上扩展了CLIP和ALIGN的对比学习框架:数据规模、模型规模和批量大小。我们的数据集包含66亿对噪声图像-文本对,这比ALIGN大4倍,比CLIP大16倍。我们最大的模型拥有30亿个参数,这比ALIGN和CLIP的参数量大3.75倍,计算量(FLOPs)大8倍。最后,我们的批量大小为65536,这比CLIP多2倍,比ALIGN多4倍。在实现BASIC的组合缩放规则时,我们遇到了两个主要挑战。首先,实施BASIC组合缩放规则的主要挑战在于加速器(如GPU和TPU)的有限内存。为克服内存限制,我们提出了两种简单的方法:利用梯度检查点技术和模型并行化技术。其次,尽管增加数据集规模和模型规模已成为提高深度学习模型(如BASIC)性能的事实上的方法,但大规模对比批量对这种对比训练的图像-文本模型的影响尚未完全理解。为了阐明大规模对比批量的好处,我们开发了一个理论框架,表明对于像BASIC这样的图像-文本模型而言,更大的对比批量可以导致更小的泛化差距。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-objectnet | ALIGN | Top-1 Accuracy: 72.2 |
| image-classification-on-objectnet | BASIC | Top-1 Accuracy: 82.3 |
| zero-shot-transfer-image-classification-on-1 | BASIC | Accuracy (Private): 85.7 |
| zero-shot-transfer-image-classification-on-3 | BASIC | Accuracy (Private): 80.6 |
| zero-shot-transfer-image-classification-on-4 | BASIC | Accuracy: 95.7 |
| zero-shot-transfer-image-classification-on-5 | BASIC | Accuracy (Private): 85.6 |
| zero-shot-transfer-image-classification-on-8 | BASIC | Accuracy (Private): 76.1 |