摘要

我们提出了一种名为BASIC的组合缩放方法，在不使用任何带有标签的ImageNet示例的情况下，该方法在ImageNet ILSVRC-2012验证集上达到了85.7%的Top-1准确率。这一准确率比已发表的最佳类似模型CLIP和ALIGN高出9.3%。我们的BASIC模型在鲁棒性基准测试中也表现出显著的改进。例如，在包含自然分布偏移的5个测试集（如ImageNet-{A,R,V2,Sketch}和ObjectNet）上，我们的模型实现了84.3%的Top-1平均准确率，仅比其原始ImageNet准确率略有下降。为了达到这些结果，我们在三个维度上扩展了CLIP和ALIGN的对比学习框架：数据规模、模型规模和批量大小。我们的数据集包含66亿对噪声图像-文本对，这比ALIGN大4倍，比CLIP大16倍。我们最大的模型拥有30亿个参数，这比ALIGN和CLIP的参数量大3.75倍，计算量（FLOPs）大8倍。最后，我们的批量大小为65536，这比CLIP多2倍，比ALIGN多4倍。在实现BASIC的组合缩放规则时，我们遇到了两个主要挑战。首先，实施BASIC组合缩放规则的主要挑战在于加速器（如GPU和TPU）的有限内存。为克服内存限制，我们提出了两种简单的方法：利用梯度检查点技术和模型并行化技术。其次，尽管增加数据集规模和模型规模已成为提高深度学习模型（如BASIC）性能的事实上的方法，但大规模对比批量对这种对比训练的图像-文本模型的影响尚未完全理解。为了阐明大规模对比批量的好处，我们开发了一个理论框架，表明对于像BASIC这样的图像-文本模型而言，更大的对比批量可以导致更小的泛化差距。

源 PDF