6 个月前

计算机视觉

多模态表征

统一多模态

计算机视觉

Muhammad Uzair Khattak Syed Talal Wasim Muzammal Naseer Salman Khan Ming-Hsuan Yang Fahad Shahbaz Khan

摘要

提示学习（Prompt Learning）已成为微调基础模型（如CLIP）以应对各类下游任务的一种高效替代方案。传统上，提示通过特定任务的目标函数（如交叉熵损失）进行训练，往往容易过度拟合下游数据分布，难以从冻结的CLIP模型中捕捉任务无关的通用特征，从而导致模型原始的泛化能力丧失。为解决这一问题，本文提出一种名为PromptSRC（Prompting with Self-regulating Constraints）的自正则化提示框架。PromptSRC通过三重机制引导提示同时优化任务特定与任务无关的通用表征：（a）通过与冻结模型之间的相互一致性最大化来约束提示的表征；（b）在训练轨迹上对提示进行自集成（self-ensemble），以编码其互补优势；（c）通过文本多样性约束，缓解视觉分支与样本多样性不平衡带来的影响。据我们所知，这是首个通过联合关注预训练模型特征、提示训练轨迹以及文本多样性来避免过拟合的提示学习正则化框架。PromptSRC明确引导提示学习一个在下游任务上表现优异且不损害CLIP原始泛化能力的表征空间。我们在4个基准数据集上进行了大量实验，结果表明，PromptSRC在整体性能上优于现有方法。相关代码与预训练模型已公开发布于：https://github.com/muzairkhattak/PromptSRC。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

多模态表征

统一多模态

计算机视觉

Muhammad Uzair Khattak Syed Talal Wasim Muzammal Naseer Salman Khan Ming-Hsuan Yang Fahad Shahbaz Khan

摘要

提示学习（Prompt Learning）已成为微调基础模型（如CLIP）以应对各类下游任务的一种高效替代方案。传统上，提示通过特定任务的目标函数（如交叉熵损失）进行训练，往往容易过度拟合下游数据分布，难以从冻结的CLIP模型中捕捉任务无关的通用特征，从而导致模型原始的泛化能力丧失。为解决这一问题，本文提出一种名为PromptSRC（Prompting with Self-regulating Constraints）的自正则化提示框架。PromptSRC通过三重机制引导提示同时优化任务特定与任务无关的通用表征：（a）通过与冻结模型之间的相互一致性最大化来约束提示的表征；（b）在训练轨迹上对提示进行自集成（self-ensemble），以编码其互补优势；（c）通过文本多样性约束，缓解视觉分支与样本多样性不平衡带来的影响。据我们所知，这是首个通过联合关注预训练模型特征、提示训练轨迹以及文本多样性来避免过拟合的提示学习正则化框架。PromptSRC明确引导提示学习一个在下游任务上表现优异且不损害CLIP原始泛化能力的表征空间。我们在4个基准数据集上进行了大量实验，结果表明，PromptSRC在整体性能上优于现有方法。相关代码与预训练模型已公开发布于：https://github.com/muzairkhattak/PromptSRC。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供