3 个月前

基于一致性的提示学习用于视觉-语言模型

基于一致性的提示学习用于视觉-语言模型

摘要

我们提出了一种名为一致性引导提示学习(Consistency-guided Prompt Learning, CoPrompt)的新颖微调方法,适用于视觉-语言模型。该方法在少样本(few-shot)设置下对下游任务进行微调时,显著提升了大型基础模型的泛化能力。CoPrompt的核心思想是,在可训练模型与预训练模型的预测结果之间施加一致性约束,以防止模型在下游任务上发生过拟合。此外,我们进一步在一致性约束中引入了两个关键组件,以进一步提升模型性能:一是对两种扰动输入下的预测结果施加一致性约束,二是融合提示学习(prompting)与适配器(adapter)两种主流微调范式。通过对扰动输入保持一致性,能够进一步强化正则化效果,从而提升模型的泛化能力。同时,将适配器与提示机制相结合,不仅在下游任务上取得了更优性能,还在输入空间与输出空间中提供了更强的可调性,从而在少样本学习场景下实现更高效、灵活的下游适应。实验结果表明,CoPrompt在多个评估基准上均优于现有方法,涵盖从基础类别到新类别的泛化能力、领域泛化能力以及跨数据集评估。在泛化性能方面,CoPrompt在零样本任务上超越了当前最优水平,并在11个数据集上的整体调和平均性能也实现了显著提升。详细的消融实验验证了CoPrompt中各组件的有效性。相关代码已公开,可通过以下链接获取:https://github.com/ShuvenduRoy/CoPrompt。

代码仓库

shuvenduroy/coprompt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
prompt-engineering-on-caltech-101CoPrompt
Harmonic mean: 96.55
prompt-engineering-on-dtdCoPrompt
Harmonic mean: 72.79
prompt-engineering-on-eurosatCoPrompt
Harmonic mean: 85.84
prompt-engineering-on-fgvc-aircraftCoPrompt
Harmonic mean: 39.76
prompt-engineering-on-food-101CoPrompt
Harmonic mean: 91.40
prompt-engineering-on-imagenetCoPrompt
Harmonic mean: 74.33
prompt-engineering-on-imagenet-aCoPrompt
Top-1 accuracy %: 50.50
prompt-engineering-on-imagenet-rCoPrompt
Top-1 accuracy %: 77.51
prompt-engineering-on-imagenet-sCoPrompt
Top-1 accuracy %: 49.43
prompt-engineering-on-oxford-102-flowerCoPrompt
Harmonic mean: 85.71
prompt-engineering-on-oxford-iiit-pet-datasetCoPrompt
Harmonic mean: 96.87
prompt-engineering-on-stanford-cars-1CoPrompt
Harmonic mean: 75.66
prompt-engineering-on-sun397CoPrompt
Harmonic mean: 81.31
prompt-engineering-on-ucf101CoPrompt
Harmonic mean: 83.07

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供