3 个月前

PVP:预训练视觉参数高效微调

PVP:预训练视觉参数高效微调

摘要

大规模预训练的Transformer模型在各类计算机视觉任务中已展现出卓越的性能。然而,由于其计算与存储成本高昂,直接对这些模型进行全量微调在下游任务中仍面临巨大挑战。近年来,参数高效微调(Parameter-Efficient Tuning, PETuning)技术,如视觉提示微调(Visual Prompt Tuning, VPT)和低秩适应(Low-Rank Adaptation, LoRA),通过在预训练模型中插入轻量级提示模块,并仅训练少量可学习参数,同时冻结Transformer主干网络,显著降低了计算与存储开销。尽管所需调整的参数极少,但大多数PETuning方法仍需大量下游任务数据才能取得良好效果,在低数据场景下表现不佳,尤其是在每类仅有单个或两个样本的情况下性能明显不足。针对这一问题,我们首先通过实证研究发现,性能不佳的主要原因在于提示模块的初始化方式不当,这一现象在预训练语言模型中也已得到验证。为此,我们提出一种名为预训练视觉参数高效微调(Pre-trained Visual Parameter-efficient Tuning, PVP)的新框架:该框架首先对参数高效微调模块进行预训练,随后将预训练的提示模块与预训练的Transformer主干网络结合,用于下游任务的参数高效微调。在五个细粒度视觉分类(Fine-Grained Visual Classification, FGVC)数据集以及VTAB-1k数据集上的实验结果表明,所提出的方法显著优于当前最先进的PETuning方法,在低数据条件下展现出更强的泛化能力与鲁棒性。

基准测试

基准方法指标
image-classification-on-vtab-1k-1PVP(VIT-Base)
Top-1 Accuracy: 78.02

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PVP:预训练视觉参数高效微调 | 论文 | HyperAI超神经