6 个月前

计算机视觉

计算机视觉

Dongjun Lee Seokwon Song Jihee Suh Joonmyung Choi Sanghyeok Lee Hyunwoo J.Kim

摘要

近年来，提示调优（prompt tuning）在将预训练视觉-语言模型适配至下游任务方面展现出显著效果。此类方法通过引入可学习的提示（learnable prompts）来调整预训练模型，同时保持预训练权重冻结。然而，可学习提示可能干扰自注意力模块中的内部表征，从而对模型性能的稳定性与泛化能力产生负面影响，尤其在数据稀缺的场景下更为明显。为解决上述问题，本文提出一种新方法——只读提示优化（Read-only Prompt Optimization, RPO）。RPO利用掩码注意力机制，有效抑制预训练模型内部表征的偏移。此外，为促进RPO的优化过程，所使用的只读提示基于预训练模型中的特殊标记进行初始化。大量实验结果表明，RPO在基础类别到新类别泛化（base-to-new generalization）与领域泛化（domain generalization）任务上均优于CLIP和CoCoOp，且展现出更强的鲁棒性。同时，在极端数据稀缺场景下，RPO仍能实现更优的泛化性能，同时显著提升参数效率并降低计算开销。代码已开源，地址为：https://github.com/mlvlab/RPO。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Dongjun Lee Seokwon Song Jihee Suh Joonmyung Choi Sanghyeok Lee Hyunwoo J.Kim

摘要

近年来，提示调优（prompt tuning）在将预训练视觉-语言模型适配至下游任务方面展现出显著效果。此类方法通过引入可学习的提示（learnable prompts）来调整预训练模型，同时保持预训练权重冻结。然而，可学习提示可能干扰自注意力模块中的内部表征，从而对模型性能的稳定性与泛化能力产生负面影响，尤其在数据稀缺的场景下更为明显。为解决上述问题，本文提出一种新方法——只读提示优化（Read-only Prompt Optimization, RPO）。RPO利用掩码注意力机制，有效抑制预训练模型内部表征的偏移。此外，为促进RPO的优化过程，所使用的只读提示基于预训练模型中的特殊标记进行初始化。大量实验结果表明，RPO在基础类别到新类别泛化（base-to-new generalization）与领域泛化（domain generalization）任务上均优于CLIP和CoCoOp，且展现出更强的鲁棒性。同时，在极端数据稀缺场景下，RPO仍能实现更优的泛化性能，同时显著提升参数效率并降低计算开销。代码已开源，地址为：https://github.com/mlvlab/RPO。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供