
摘要
本工作突破了提示调优(prompt tuning)中的基础-新任务权衡(Base-New Tradeoff, BNT)困境,即模型在基础(或目标)任务上泛化能力越强,其在新任务上的泛化能力反而越弱,反之亦然。具体而言,通过对基础任务与新任务所学特征的深入分析,我们发现BNT问题的根源在于通道偏置(channel bias):绝大多数特征通道被基础任务特异性知识占据,导致对新任务至关重要的任务共享知识发生坍缩。为解决这一问题,我们提出了解耦提示调优(Decoupled Prompt Tuning, DePT)框架,该框架在提示调优过程中将基础任务特异性知识从原始特征通道中解耦至一个独立的特征空间,从而在原始特征空间中最大程度地保留任务共享知识,以实现对新任务更优的零样本泛化性能。尤为重要的是,DePT与现有提示调优方法具有正交性,因此可有效提升所有现有方法的性能。在11个数据集上的大量实验验证了DePT出色的灵活性与有效性。相关代码与预训练模型已开源,地址为:https://github.com/Koorye/DePT。
代码仓库
koorye/dept
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| prompt-engineering-on-caltech-101 | DePT | Harmonic mean: 96.28 |
| prompt-engineering-on-dtd | DePT | Harmonic mean: 71.09 |
| prompt-engineering-on-eurosat | DePT | Harmonic mean: 84.88 |
| prompt-engineering-on-fgvc-aircraft | DePT | Harmonic mean: 40.73 |
| prompt-engineering-on-food-101 | DePT | Harmonic mean: 91.22 |
| prompt-engineering-on-imagenet | DePT | Harmonic mean: 74.02 |
| prompt-engineering-on-oxford-102-flower | DePT | Harmonic mean: 86.46 |
| prompt-engineering-on-oxford-iiit-pet-dataset | DePT | Harmonic mean: 96.37 |
| prompt-engineering-on-stanford-cars-1 | DePT | Harmonic mean: 77.79 |
| prompt-engineering-on-sun397 | DePT | Harmonic mean: 81.06 |
| prompt-engineering-on-ucf101 | DePT | Harmonic mean: 82.46 |