3 个月前

基于贝叶斯提示学习的图像-语言模型泛化

基于贝叶斯提示学习的图像-语言模型泛化

摘要

基础图像-语言模型因其通过提示学习(prompt learning)实现对下游任务的高效适应而受到广泛关注。提示学习将语言模型输入的一部分视为可训练参数,其余部分则保持冻结,并优化经验风险最小化(Empirical Risk Minimization, ERM)目标。然而,经验风险最小化已知在分布外(distributional shift)情况下表现不佳,导致模型在训练中未见过的提示上泛化能力下降。为此,本文利用贝叶斯方法的正则化能力,从贝叶斯视角重新审视提示学习,并将其建模为变分推断(variational inference)问题。所提出的方法对提示空间进行正则化,有效缓解了对已见提示的过拟合问题,显著提升了模型在未见提示上的泛化性能。本框架通过概率化建模输入提示空间,引入先验分布(a priori distribution),使方法能够兼容无条件或基于图像条件的各类提示学习范式。在15个基准测试上的实证结果表明,贝叶斯提示学习能够实现对提示空间的合理覆盖,有效避免学习虚假特征,并充分挖掘可迁移的不变特征。这一优势使得模型在跨数据集、跨领域场景下对未见提示仍具备更强的泛化能力。代码已开源,地址为:https://github.com/saic-fi/Bayesian-Prompt-Learning

代码仓库

saic-fi/bayesian-prompt-learning
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-learning-on-caltech101Variational Prompt Tuning
Harmonic mean: 96.44
few-shot-learning-on-dtdVariational Prompt Tuning
Harmonic mean: 67.27
few-shot-learning-on-eurosatVariational Prompt Tuning
Harmonic mean: 77.71
few-shot-learning-on-fgvc-aircraft-1Variational Prompt Tuning
Harmonic mean: 34.69
few-shot-learning-on-flowers-102Variational Prompt Tuning
Harmonic mean: 81.12
few-shot-learning-on-food101Variational Prompt Tuning
Harmonic mean: 91.57
few-shot-learning-on-oxfordpetsVariational Prompt Tuning
Harmonic mean: 96.82
few-shot-learning-on-stanforcarsVariational Prompt Tuning
Harmonic mean: 73.07
few-shot-learning-on-sun397Variational Prompt Tuning
Harmonic mean: 78.51
few-shot-learning-on-ucf101Variational Prompt Tuning
Harmonic mean: 79

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于贝叶斯提示学习的图像-语言模型泛化 | 论文 | HyperAI超神经