
摘要
本文介绍了对比调优(contrastive-tuning),这是一种利用对比训练来对齐图像和文本模型的简单方法,同时仍然保留它们的预训练优势。在我们的实证研究中发现,锁定预训练的图像模型而解锁文本模型的效果最佳。我们将这种对比调优的具体实例称为“锁定图像调优”(Locked-image Tuning,简称LiT),它仅教导文本模型从预训练的图像模型中提取高质量的表示用于新任务。通过LiT模型,可以实现对新的视觉任务(如图像分类或检索)的零样本迁移能力。所提出的LiT方法具有广泛的适用性;它能够可靠地与多种预训练方法(监督和无监督)以及不同架构(ResNet、Vision Transformers 和 MLP-Mixer)配合使用,并在三个不同的图像-文本数据集上表现出色。使用基于Transformer的预训练ViT-g/14模型时,LiT模型在ImageNet测试集上的零样本迁移准确率达到85.2%,在具有挑战性的ObjectNet测试集上的准确率为82.5%。
代码仓库
mlfoundations/open_clip
pytorch
GitHub 中提及
google-research/big_vision
官方
jax
GitHub 中提及
google-research/vision_transformer
官方
jax
GitHub 中提及
laion-ai/clip_benchmark
pytorch
GitHub 中提及
eify/clip_benchmark
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-objectnet | LiT | Top-1 Accuracy: 82.5 |
| zero-shot-transfer-image-classification-on-1 | LiT-tuning | Accuracy (Private): 84.5 Accuracy (Public): 75.7 |
| zero-shot-transfer-image-classification-on-3 | LiT-tuning | Accuracy (Private): 78.7 Accuracy (Public): 66.6 |
| zero-shot-transfer-image-classification-on-4 | LiT-tuning | Accuracy: 93.9 |
| zero-shot-transfer-image-classification-on-5 | LiT-tuning | Accuracy (Private): 79.4 Accuracy (Public): 37.8 |
| zero-shot-transfer-image-classification-on-6 | LiT-tuning | Accuracy (Private): 81.1 Accuracy (Public): 54.5 |
| zero-shot-transfer-image-classification-on-7 | LiT-tuning | Accuracy (Private): 88.0 Accuracy (Public): 82.2 |