4 个月前

零样本迁移学习的联合缩放方法

零样本迁移学习的联合缩放方法

摘要

我们提出了一种名为BASIC的组合缩放方法,在不使用任何带有标签的ImageNet示例的情况下,该方法在ImageNet ILSVRC-2012验证集上达到了85.7%的Top-1准确率。这一准确率比已发表的最佳类似模型CLIP和ALIGN高出9.3%。我们的BASIC模型在鲁棒性基准测试中也表现出显著的改进。例如,在包含自然分布偏移的5个测试集(如ImageNet-{A,R,V2,Sketch}和ObjectNet)上,我们的模型实现了84.3%的Top-1平均准确率,仅比其原始ImageNet准确率略有下降。为了达到这些结果,我们在三个维度上扩展了CLIP和ALIGN的对比学习框架:数据规模、模型规模和批量大小。我们的数据集包含66亿对噪声图像-文本对,这比ALIGN大4倍,比CLIP大16倍。我们最大的模型拥有30亿个参数,这比ALIGN和CLIP的参数量大3.75倍,计算量(FLOPs)大8倍。最后,我们的批量大小为65536,这比CLIP多2倍,比ALIGN多4倍。在实现BASIC的组合缩放规则时,我们遇到了两个主要挑战。首先,实施BASIC组合缩放规则的主要挑战在于加速器(如GPU和TPU)的有限内存。为克服内存限制,我们提出了两种简单的方法:利用梯度检查点技术和模型并行化技术。其次,尽管增加数据集规模和模型规模已成为提高深度学习模型(如BASIC)性能的事实上的方法,但大规模对比批量对这种对比训练的图像-文本模型的影响尚未完全理解。为了阐明大规模对比批量的好处,我们开发了一个理论框架,表明对于像BASIC这样的图像-文本模型而言,更大的对比批量可以导致更小的泛化差距。

基准测试

基准方法指标
image-classification-on-objectnetALIGN
Top-1 Accuracy: 72.2
image-classification-on-objectnetBASIC
Top-1 Accuracy: 82.3
zero-shot-transfer-image-classification-on-1BASIC
Accuracy (Private): 85.7
zero-shot-transfer-image-classification-on-3BASIC
Accuracy (Private): 80.6
zero-shot-transfer-image-classification-on-4BASIC
Accuracy: 95.7
zero-shot-transfer-image-classification-on-5BASIC
Accuracy (Private): 85.6
zero-shot-transfer-image-classification-on-8BASIC
Accuracy (Private): 76.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
零样本迁移学习的联合缩放方法 | 论文 | HyperAI超神经