3 个月前

从视觉提示中学习语义代理以实现深度度量学习中的参数高效微调

从视觉提示中学习语义代理以实现深度度量学习中的参数高效微调

摘要

深度度量学习(Deep Metric Learning, DML)长期以来一直是机器学习领域关注的核心目标之一。现有的方法主要集中在基于传统图像数据集对预训练模型进行微调。然而,随着近年来在大规模数据集上训练的预训练模型取得显著成功,如何在保留已有知识的前提下,将模型有效适配至本地数据域中的DML任务,已成为一项挑战。本文研究了针对预训练模型在DML任务中进行高效微调的参数高效方法。具体而言,我们提出了一种基于视觉提示(Visual Prompt Tuning, VPT)的新颖且高效的框架,该框架构建于预训练视觉Transformer(Vision Transformer, ViT)之上。在传统的基于代理(proxy-based)DML范式基础上,我们通过融合输入图像与ViT所蕴含的语义信息,对代理向量进行增强,并为每一类优化相应的视觉提示。实验表明,引入语义信息的新近似方法在表征能力方面显著优于传统方法,从而有效提升了度量学习的性能。我们在多个主流DML基准上进行了大量实验,验证了所提框架的有效性与高效性。特别地,我们的微调方法仅需调整总参数量的一小部分,即可实现与近期最先进的全量微调方法相当甚至更优的性能,充分体现了其在参数效率方面的优势。

代码仓库

noahsark/parameterefficient-dml
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-inaturalistEfficientDML-VPTSP-G/512
R@1: 84.5
metric-learning-on-cars196EfficientDML-VPTSP-G/512
R@1: 91.2
metric-learning-on-cub-200-2011EfficientDML-VPTSP-G/512
R@1: 88.5
metric-learning-on-in-shop-1EfficientDML-VPTSP-G/512
R@1: 92.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从视觉提示中学习语义代理以实现深度度量学习中的参数高效微调 | 论文 | HyperAI超神经