
摘要
提示学习(Prompt Learning)已成为将视觉-语言基础模型适配至下游任务的主流策略。随着大规模语言模型(LLMs)的兴起,近期研究探索了利用与类别相关的描述作为输入,以提升提示的有效性。然而,传统的描述方式难以提供结构化信息,无法有效表征特定类别下实体与属性之间的内在关联。为克服这一局限,并强调对结构化知识的充分利用,本文提出借助LLM为每条描述构建图结构,以建模描述该类别的实体、属性及其相互关系。现有提示调优方法在处理此类结构化知识方面存在明显不足。为此,本文提出一种新颖的方法——层次化提示调优(Hierarchical Prompt Tuning, HPT),实现对结构化知识与传统语言知识的同步建模。具体而言,我们设计了一种关系引导的注意力模块,用于捕捉实体与属性之间的成对关联,支持底层提示学习;同时,通过引入高层及全局提示以建模整体语义,所提出的分层结构实现了跨层级的关联连接,使模型能够更有效地处理复杂且长程的语义关系。大量实验结果表明,所提出的HPT方法在性能上显著优于现有最先进方法,展现出更强的有效性与更优的泛化能力。代码已开源,地址为:https://github.com/Vill-Lab/2024-AAAI-HPT。
代码仓库
vill-lab/2024-aaai-hpt
官方
pytorch
GitHub 中提及
ThomasWangY/2024-AAAI-HPT
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| prompt-engineering-on-caltech-101 | HPT | Harmonic mean: 96.65 |
| prompt-engineering-on-dtd | HPT | Harmonic mean: 72.16 |
| prompt-engineering-on-eurosat | HPT | Harmonic mean: 84.82 |
| prompt-engineering-on-fgvc-aircraft | HPT | Harmonic mean: 40.28 |
| prompt-engineering-on-food-101 | HPT | Harmonic mean: 91.01 |
| prompt-engineering-on-imagenet | HPT | Harmonic mean: 74.17 |
| prompt-engineering-on-imagenet-a | HPT | Top-1 accuracy %: 50.85 |
| prompt-engineering-on-imagenet-r | HPT | Top-1 accuracy %: 77.38 |
| prompt-engineering-on-imagenet-s | HPT | Top-1 accuracy %: 49.36 |
| prompt-engineering-on-imagenet-v2 | HPT | Top-1 accuracy %: 65.25 |
| prompt-engineering-on-oxford-102-flower | HPT | Harmonic mean: 87.16 |
| prompt-engineering-on-oxford-iiit-pet-dataset | HPT | Harmonic mean: 96.71 |
| prompt-engineering-on-stanford-cars-1 | HPT | Harmonic mean: 75.57 |
| prompt-engineering-on-sun397 | HPT | Harmonic mean: 80.88 |
| prompt-engineering-on-ucf101 | HPT | Harmonic mean: 83.16 |