3 个月前

基于结构化语言知识的层次化提示学习用于视觉-语言模型

基于结构化语言知识的层次化提示学习用于视觉-语言模型

摘要

提示学习(Prompt Learning)已成为将视觉-语言基础模型适配至下游任务的主流策略。随着大规模语言模型(LLMs)的兴起,近期研究探索了利用与类别相关的描述作为输入,以提升提示的有效性。然而,传统的描述方式难以提供结构化信息,无法有效表征特定类别下实体与属性之间的内在关联。为克服这一局限,并强调对结构化知识的充分利用,本文提出借助LLM为每条描述构建图结构,以建模描述该类别的实体、属性及其相互关系。现有提示调优方法在处理此类结构化知识方面存在明显不足。为此,本文提出一种新颖的方法——层次化提示调优(Hierarchical Prompt Tuning, HPT),实现对结构化知识与传统语言知识的同步建模。具体而言,我们设计了一种关系引导的注意力模块,用于捕捉实体与属性之间的成对关联,支持底层提示学习;同时,通过引入高层及全局提示以建模整体语义,所提出的分层结构实现了跨层级的关联连接,使模型能够更有效地处理复杂且长程的语义关系。大量实验结果表明,所提出的HPT方法在性能上显著优于现有最先进方法,展现出更强的有效性与更优的泛化能力。代码已开源,地址为:https://github.com/Vill-Lab/2024-AAAI-HPT。

代码仓库

vill-lab/2024-aaai-hpt
官方
pytorch
GitHub 中提及
ThomasWangY/2024-AAAI-HPT
pytorch
GitHub 中提及

基准测试

基准方法指标
prompt-engineering-on-caltech-101HPT
Harmonic mean: 96.65
prompt-engineering-on-dtdHPT
Harmonic mean: 72.16
prompt-engineering-on-eurosatHPT
Harmonic mean: 84.82
prompt-engineering-on-fgvc-aircraftHPT
Harmonic mean: 40.28
prompt-engineering-on-food-101HPT
Harmonic mean: 91.01
prompt-engineering-on-imagenetHPT
Harmonic mean: 74.17
prompt-engineering-on-imagenet-aHPT
Top-1 accuracy %: 50.85
prompt-engineering-on-imagenet-rHPT
Top-1 accuracy %: 77.38
prompt-engineering-on-imagenet-sHPT
Top-1 accuracy %: 49.36
prompt-engineering-on-imagenet-v2HPT
Top-1 accuracy %: 65.25
prompt-engineering-on-oxford-102-flowerHPT
Harmonic mean: 87.16
prompt-engineering-on-oxford-iiit-pet-datasetHPT
Harmonic mean: 96.71
prompt-engineering-on-stanford-cars-1HPT
Harmonic mean: 75.57
prompt-engineering-on-sun397HPT
Harmonic mean: 80.88
prompt-engineering-on-ucf101HPT
Harmonic mean: 83.16

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供