
摘要
提示学习(Prompt Learning)已成为适配视觉-语言基础模型(VLMs,如CLIP)至下游任务的主流策略。随着大规模语言模型(LLMs)的兴起,近期研究探索了利用与类别相关的描述来提升提示的有效性。然而,传统描述缺乏表达关键元素(如实体或属性)之间关联关系所必需的显式结构化信息。由于现有提示调优方法对结构化知识的管理关注不足,本文提出借助LLM为每条描述构建图结构,以优先整合此类结构化知识。为此,我们提出一种新型方法——分层提示调优(Hierarchical Prompt Tuning, HPT),实现对结构化知识与传统语言知识的并行建模。具体而言,我们引入一种关系引导注意力模块,用于捕捉实体与属性之间的成对关联,支持低层级提示学习。同时,通过融合高层级与全局级提示以建模整体语义,所提出的分层架构实现了跨层级的关联连接,使模型能够更好地处理更复杂、更长期的语义关系。此外,通过增强多粒度知识生成能力、重构关系驱动的注意力重加权模块,并在分层文本编码器中引入一致性约束,我们进一步提出了HPT++,显著提升了HPT的性能。我们在多种评估设置下进行了实验,涵盖基础类别到新类别的泛化能力、跨数据集评估以及领域泛化能力。大量实验结果与消融研究充分验证了所提方法的有效性,其性能持续优于现有最先进(SOTA)方法。
代码仓库
vill-lab/2024-aaai-hpt
pytorch
GitHub 中提及
ThomasWangY/2024-AAAI-HPT
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| prompt-engineering-on-caltech-101 | HPT++ | Harmonic mean: 96.96 |
| prompt-engineering-on-dtd | HPT++ | Harmonic mean: 74.23 |
| prompt-engineering-on-eurosat | HPT++ | Harmonic mean: 87.36 |
| prompt-engineering-on-fgvc-aircraft | HPT++ | Harmonic mean: 41.33 |
| prompt-engineering-on-food-101 | HPT++ | Harmonic mean: 91.09 |
| prompt-engineering-on-imagenet | HPT++ | Harmonic mean: 74.24 |
| prompt-engineering-on-imagenet-a | HPT++ | Top-1 accuracy %: 51.18 |
| prompt-engineering-on-imagenet-r | HPT++ | Top-1 accuracy %: 77.52 |
| prompt-engineering-on-imagenet-s | HPT++ | Top-1 accuracy %: 49.28 |
| prompt-engineering-on-imagenet-v2 | HPT++ | Top-1 accuracy %: 65.31 |
| prompt-engineering-on-oxford-102-flower | HPT++ | Harmonic mean: 85.85 |
| prompt-engineering-on-oxford-iiit-pet-dataset | HPT++ | Harmonic mean: 96.91 |
| prompt-engineering-on-stanford-cars-1 | HPT++ | Harmonic mean: 75.59 |
| prompt-engineering-on-sun397 | HPT++ | Harmonic mean: 81.11 |
| prompt-engineering-on-ucf101 | HPT++ | Harmonic mean: 83.81 |