
摘要
我们提出了一种名为一致性引导提示学习(Consistency-guided Prompt Learning, CoPrompt)的新颖微调方法,适用于视觉-语言模型。该方法在少样本(few-shot)设置下对下游任务进行微调时,显著提升了大型基础模型的泛化能力。CoPrompt的核心思想是,在可训练模型与预训练模型的预测结果之间施加一致性约束,以防止模型在下游任务上发生过拟合。此外,我们进一步在一致性约束中引入了两个关键组件,以进一步提升模型性能:一是对两种扰动输入下的预测结果施加一致性约束,二是融合提示学习(prompting)与适配器(adapter)两种主流微调范式。通过对扰动输入保持一致性,能够进一步强化正则化效果,从而提升模型的泛化能力。同时,将适配器与提示机制相结合,不仅在下游任务上取得了更优性能,还在输入空间与输出空间中提供了更强的可调性,从而在少样本学习场景下实现更高效、灵活的下游适应。实验结果表明,CoPrompt在多个评估基准上均优于现有方法,涵盖从基础类别到新类别的泛化能力、领域泛化能力以及跨数据集评估。在泛化性能方面,CoPrompt在零样本任务上超越了当前最优水平,并在11个数据集上的整体调和平均性能也实现了显著提升。详细的消融实验验证了CoPrompt中各组件的有效性。相关代码已公开,可通过以下链接获取:https://github.com/ShuvenduRoy/CoPrompt。
代码仓库
ShuvenduRoy/FER_TL_PipelineTraining
GitHub 中提及
shuvenduroy/coprompt
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| prompt-engineering-on-caltech-101 | CoPrompt | Harmonic mean: 96.55 |
| prompt-engineering-on-dtd | CoPrompt | Harmonic mean: 72.79 |
| prompt-engineering-on-eurosat | CoPrompt | Harmonic mean: 85.84 |
| prompt-engineering-on-fgvc-aircraft | CoPrompt | Harmonic mean: 39.76 |
| prompt-engineering-on-food-101 | CoPrompt | Harmonic mean: 91.40 |
| prompt-engineering-on-imagenet | CoPrompt | Harmonic mean: 74.33 |
| prompt-engineering-on-imagenet-a | CoPrompt | Top-1 accuracy %: 50.50 |
| prompt-engineering-on-imagenet-r | CoPrompt | Top-1 accuracy %: 77.51 |
| prompt-engineering-on-imagenet-s | CoPrompt | Top-1 accuracy %: 49.43 |
| prompt-engineering-on-oxford-102-flower | CoPrompt | Harmonic mean: 85.71 |
| prompt-engineering-on-oxford-iiit-pet-dataset | CoPrompt | Harmonic mean: 96.87 |
| prompt-engineering-on-stanford-cars-1 | CoPrompt | Harmonic mean: 75.66 |
| prompt-engineering-on-sun397 | CoPrompt | Harmonic mean: 81.31 |
| prompt-engineering-on-ucf101 | CoPrompt | Harmonic mean: 83.07 |