6 个月前

摘要

大规模预训练的Transformer模型在各类计算机视觉任务中已展现出卓越的性能。然而，由于其计算与存储成本高昂，直接对这些模型进行全量微调在下游任务中仍面临巨大挑战。近年来，参数高效微调（Parameter-Efficient Tuning, PETuning）技术，如视觉提示微调（Visual Prompt Tuning, VPT）和低秩适应（Low-Rank Adaptation, LoRA），通过在预训练模型中插入轻量级提示模块，并仅训练少量可学习参数，同时冻结Transformer主干网络，显著降低了计算与存储开销。尽管所需调整的参数极少，但大多数PETuning方法仍需大量下游任务数据才能取得良好效果，在低数据场景下表现不佳，尤其是在每类仅有单个或两个样本的情况下性能明显不足。针对这一问题，我们首先通过实证研究发现，性能不佳的主要原因在于提示模块的初始化方式不当，这一现象在预训练语言模型中也已得到验证。为此，我们提出一种名为预训练视觉参数高效微调（Pre-trained Visual Parameter-efficient Tuning, PVP）的新框架：该框架首先对参数高效微调模块进行预训练，随后将预训练的提示模块与预训练的Transformer主干网络结合，用于下游任务的参数高效微调。在五个细粒度视觉分类（Fine-Grained Visual Classification, FGVC）数据集以及VTAB-1k数据集上的实验结果表明，所提出的方法显著优于当前最先进的PETuning方法，在低数据条件下展现出更强的泛化能力与鲁棒性。

源 PDF