3 个月前

通过元正则化进行提示学习

通过元正则化进行提示学习

摘要

预训练视觉-语言模型在各类计算机视觉任务中展现出卓越的性能,尤其得益于其出色的零样本泛化能力。近年来,提示学习(prompt learning)方法被广泛探索,以高效且有效地将视觉-语言模型适配到多种下游任务。然而,大多数现有提示学习方法存在任务过拟合问题:当在特定目标任务的小规模数据集上微调提示时,模型会逐渐遗忘预训练阶段所学习到的通用知识。为解决这一问题,本文提出了一种提示元正则化方法(Prompt Meta-Regularization, ProMetaR),以提升视觉-语言模型在提示学习中的泛化能力。具体而言,ProMetaR通过元学习机制,同时优化正则化项与软提示(soft prompts),从而在保留视觉-语言模型中任务无关的通用知识的同时,有效捕获下游任务中的特定知识。此外,ProMetaR通过任务增强策略生成多个虚拟任务,以缓解元学习过程中的过拟合问题。本文还从梯度对齐(gradient alignment)的视角对ProMetaR如何提升提示微调泛化能力进行了理论分析。大量实验结果表明,与传统提示学习方法相比,ProMetaR在基础到基础(base-to-base)、基础到新类别(base-to-new)以及域泛化(domain generalization)等多种设置下均显著提升了模型的泛化性能。ProMetaR的代码已开源,可通过 https://github.com/mlvlab/ProMetaR 获取。

代码仓库

mlvlab/prometar
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
prompt-engineering-on-caltech-101ProMetaR
Harmonic mean: 96.16
prompt-engineering-on-dtdProMetaR
Harmonic mean: 72.31
prompt-engineering-on-eurosatProMetaR
Harmonic mean: 85.30
prompt-engineering-on-fgvc-aircraftProMetaR
Harmonic mean: 40.25
prompt-engineering-on-food-101ProMetaR
Harmonic mean: 91.34
prompt-engineering-on-imagenetProMetaR
Harmonic mean: 74.09
prompt-engineering-on-oxford-102-flowerProMetaR
Harmonic mean: 86.70
prompt-engineering-on-oxford-iiit-pet-datasetProMetaR
Harmonic mean: 96.49
prompt-engineering-on-stanford-cars-1ProMetaR
Harmonic mean: 76.72
prompt-engineering-on-sun397ProMetaR
Harmonic mean: 80.82
prompt-engineering-on-ucf101ProMetaR
Harmonic mean: 83.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供