3 个月前

自监督视觉Transformer的视觉提示调优改进

自监督视觉Transformer的视觉提示调优改进

摘要

视觉提示调优(Visual Prompt Tuning, VPT)是一种高效的方法,可用于将预训练的视觉Transformer(Vision Transformers, ViTs)适配至下游任务。该方法通过引入可学习的额外标记(即“提示”标记),引导冻结的预训练ViT模型进行任务适应。尽管VPT在监督学习的视觉Transformer中已展现出良好的适用性,但在自监督学习的ViT模型上通常表现欠佳。通过实验观察,我们发现VPT的有效性在很大程度上取决于提示标记与之交互的ViT模块位置。具体而言,当提示标记被插入到MAE和MoCo v3等自监督ViT模型的较深层块中,而非首层块时,其在图像分类任务上的性能显著提升。这些发现表明,提示标记的插入位置存在一个最优的模块区间。然而,在面对多样化的未来应用场景时,为每种自监督ViT模型手动识别最优提示插入位置是一项成本高昂的过程。为缓解这一问题,我们提出一种简单而高效的新方法:为每个ViT模块学习一个门控机制(gate),以动态调节该模块对提示标记的干预程度。借助该方法,提示标记仅受到那些在任务适配中确实需要被引导的模块的影响,从而实现更精准的调控。实验结果表明,该方法在细粒度视觉分类(FGVC)、VTAB图像分类以及ADE20K语义分割任务上均显著优于现有的VPT变体。相关代码已开源,地址为:https://github.com/ryongithub/GatedPromptTuning。

代码仓库

基准测试

基准方法指标
visual-prompt-tuning-on-fgvcGateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)
Mean Accuracy: 73.39
visual-prompt-tuning-on-fgvcGateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)
Mean Accuracy: 83.00
visual-prompt-tuning-on-vtab-1k-natural-7GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)
Mean Accuracy: 74.84
visual-prompt-tuning-on-vtab-1k-natural-7GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)
Mean Accuracy: 47.61
visual-prompt-tuning-on-vtab-1k-specialized-4GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)
Mean Accuracy: 83.38
visual-prompt-tuning-on-vtab-1k-specialized-4GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)
Mean Accuracy: 76.86
visual-prompt-tuning-on-vtab-1k-structured-8GateVPT(ViT-B/16_MoCo_v3_pretrained_ImageNet-1K)
Mean Accuracy: 49.10
visual-prompt-tuning-on-vtab-1k-structured-8GateVPT(ViT-B/16_MAE_pretrained_ImageNet-1K)
Mean Accuracy: 36.80

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自监督视觉Transformer的视觉提示调优改进 | 论文 | HyperAI超神经