4 个月前

LiT:基于锁定图像文本调优的零样本迁移

LiT:基于锁定图像文本调优的零样本迁移

摘要

本文介绍了对比调优(contrastive-tuning),这是一种利用对比训练来对齐图像和文本模型的简单方法,同时仍然保留它们的预训练优势。在我们的实证研究中发现,锁定预训练的图像模型而解锁文本模型的效果最佳。我们将这种对比调优的具体实例称为“锁定图像调优”(Locked-image Tuning,简称LiT),它仅教导文本模型从预训练的图像模型中提取高质量的表示用于新任务。通过LiT模型,可以实现对新的视觉任务(如图像分类或检索)的零样本迁移能力。所提出的LiT方法具有广泛的适用性;它能够可靠地与多种预训练方法(监督和无监督)以及不同架构(ResNet、Vision Transformers 和 MLP-Mixer)配合使用,并在三个不同的图像-文本数据集上表现出色。使用基于Transformer的预训练ViT-g/14模型时,LiT模型在ImageNet测试集上的零样本迁移准确率达到85.2%,在具有挑战性的ObjectNet测试集上的准确率为82.5%。

代码仓库

mlfoundations/open_clip
pytorch
GitHub 中提及
google-research/big_vision
官方
jax
GitHub 中提及
google-research/vision_transformer
官方
jax
GitHub 中提及
laion-ai/clip_benchmark
pytorch
GitHub 中提及
eify/clip_benchmark
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-objectnetLiT
Top-1 Accuracy: 82.5
zero-shot-transfer-image-classification-on-1LiT-tuning
Accuracy (Private): 84.5
Accuracy (Public): 75.7
zero-shot-transfer-image-classification-on-3LiT-tuning
Accuracy (Private): 78.7
Accuracy (Public): 66.6
zero-shot-transfer-image-classification-on-4LiT-tuning
Accuracy: 93.9
zero-shot-transfer-image-classification-on-5LiT-tuning
Accuracy (Private): 79.4
Accuracy (Public): 37.8
zero-shot-transfer-image-classification-on-6LiT-tuning
Accuracy (Private): 81.1
Accuracy (Public): 54.5
zero-shot-transfer-image-classification-on-7LiT-tuning
Accuracy (Private): 88.0
Accuracy (Public): 82.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LiT:基于锁定图像文本调优的零样本迁移 | 论文 | HyperAI超神经