3 个月前

视觉-语言模型的条件提示学习

视觉-语言模型的条件提示学习

摘要

随着CLIP等强大预训练视觉-语言模型的兴起,如何将这些模型适配至下游数据集已成为一项关键任务。近期提出的一种名为上下文优化(Context Optimization, CoOp)的方法,将自然语言处理(NLP)领域中新兴的提示学习(prompt learning)理念引入视觉领域,用于适配预训练的视觉-语言模型。具体而言,CoOp将提示中的上下文词转化为一组可学习的向量,并仅需少量标注图像即可实现显著优于人工精心调优提示的性能提升。在本研究中,我们发现CoOp存在一个关键问题:其学习得到的上下文对同一数据集中未见类别的泛化能力较差,表明CoOp在训练过程中对基础类别存在过拟合现象。为解决该问题,我们提出条件上下文优化(Conditional Context Optimization, CoCoOp),在CoOp基础上进一步引入一个轻量级神经网络,用于为每张图像生成一个与输入相关的词元(向量)。与CoOp中静态提示不同,我们的动态提示能够根据输入实例自适应调整,因而对类别分布的变化具有更强的鲁棒性。大量实验结果表明,CoCoOp在未见类别上的泛化能力显著优于CoOp,甚至展现出跨数据集的潜在迁移能力;同时在领域泛化性能方面也表现更优。相关代码已开源,地址为:https://github.com/KaiyangZhou/CoOp。

代码仓库

vill-lab/2024-aaai-hpt
pytorch
GitHub 中提及
hhenryd/tap
pytorch
GitHub 中提及
ThomasWangY/2024-AAAI-HPT
pytorch
GitHub 中提及
saic-fi/bayesian-prompt-learning
pytorch
GitHub 中提及
kaiyangzhou/coop
官方
pytorch
GitHub 中提及
Gahyeonkim09/AAPL
pytorch
GitHub 中提及
kaiyangzhou/on-device-dg
pytorch
GitHub 中提及
muzairkhattak/protext
pytorch
GitHub 中提及
healthx-lab/biomedcoop
pytorch
GitHub 中提及
Vill-Lab/2024-TIP-MetaPrompt
pytorch
GitHub 中提及
azshue/TPT
pytorch
GitHub 中提及

基准测试

基准方法指标
prompt-engineering-on-caltech-101CoCoOp
Harmonic mean: 95.84
prompt-engineering-on-dtdCoCoOp
Harmonic mean: 64.85
prompt-engineering-on-eurosatCoCoOp
Harmonic mean: 71.21
prompt-engineering-on-fgvc-aircraftCoCoOp
Harmonic mean: 27.74
prompt-engineering-on-food-101CoCoOp
Harmonic mean: 90.99
prompt-engineering-on-imagenetCoCoOp
Harmonic mean: 73.10
prompt-engineering-on-imagenet-aCoCoOp
Top-1 accuracy %: 50.63
prompt-engineering-on-imagenet-rCoCoOP
Top-1 accuracy %: 76.18
prompt-engineering-on-imagenet-sCoCoOp
Top-1 accuracy %: 48.75
prompt-engineering-on-imagenet-v2CoCoOp
Top-1 accuracy %: 64.07
prompt-engineering-on-oxford-102-flowerCoCoOp
Harmonic mean: 81.71
prompt-engineering-on-oxford-iiit-pet-datasetCoCoOp
Harmonic mean: 96.43
prompt-engineering-on-stanford-cars-1CoCoOp
Harmonic mean: 72.01
prompt-engineering-on-sun397CoCoOp
Harmonic mean: 78.27
prompt-engineering-on-ucf101CoCoOp
Harmonic mean: 77.64

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉-语言模型的条件提示学习 | 论文 | HyperAI超神经