3 个月前

追踪遇见LoRA:更快速的训练、更大的模型、更强的性能

追踪遇见LoRA:更快速的训练、更大的模型、更强的性能

摘要

受大规模语言模型中参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)的启发,我们提出LoRAT——一种能够充分发挥视觉Transformer(ViT)模型在视觉跟踪任务中潜力的方法,且仅需实验室级别的计算资源即可实现。本工作的核心在于将LoRA(Low-Rank Adaptation)这一仅微调模型中少量参数、不引入推理延迟的技术,成功迁移至视觉跟踪领域。然而,由于该领域存在独特的挑战与潜在的领域差异,这种迁移远非直观设想般简单。首先,基于Transformer的跟踪器通常为模板图像与搜索图像分别构建非共享的位置编码,这与LoRA在预训练主干网络迁移至下游任务时通常要求结构一致性的设计原则相冲突。其次,卷积头固有的归纳偏置(inductive bias)削弱了参数高效微调在跟踪模型中的有效性。为克服上述限制,我们提出两项关键改进:其一,将Transformer跟踪器中的位置编码解耦为共享的空间位置编码与独立的类型编码。其中,共享编码用于描述多尺度图像(即模板图像与搜索图像)的绝对坐标,直接继承自预训练主干网络;而独立编码则用于标识每个token的来源,从零开始学习。其二,我们设计了一种完全基于MLP的无锚框头(anchor-free head),以适配PETR架构,在显著降低计算开销的同时实现更优性能。得益于上述设计,LoRAT实现了以下成果:1)在仅配备25.8GB显存的GPU上即可训练采用ViT-g主干的跟踪器(批量大小为16),显著降低硬件门槛;2)将L-224变体的训练时间从35.0 GPU小时缩短至10.8 GPU小时;3)在LaSOT数据集上,L-224变体的SUC(Success Rate)得分由0.703提升至0.742;4)L-224变体的推理速度从52 FPS提升至119 FPS,实现显著加速。相关代码与模型已开源,地址为:https://github.com/LitingLin/LoRAT。

代码仓库

litinglin/lorat
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-object-tracking-on-got-10kLoRAT-L-378
Average Overlap: 77.5
Success Rate 0.5: 86.2
Success Rate 0.75: 78.1
visual-object-tracking-on-got-10kLoRAT-g-378
Average Overlap: 78.9
Success Rate 0.5: 87.8
Success Rate 0.75: 80.7
visual-object-tracking-on-lasotLoRAT-L-378
AUC: 75.1
Normalized Precision: 84.1
Precision: 82.0
visual-object-tracking-on-lasotLoRAT-g-378
AUC: 76.2
Normalized Precision: 85.3
Precision: 83.5
visual-object-tracking-on-lasot-extLoRAT-g-378
AUC: 56.5
Normalized Precision: 69.0
Precision: 64.9
visual-object-tracking-on-lasot-extLoRAT-L-378
AUC: 56.6
Normalized Precision: 69.0
Precision: 65.1
visual-object-tracking-on-needforspeedLoRAT-L-378
AUC: 0.667
visual-object-tracking-on-needforspeedLoRAT-g-378
AUC: 0.681
visual-object-tracking-on-tnl2kLoRAT-g-378
AUC: 62.7
precision: 67.8
visual-object-tracking-on-tnl2kLoRAT-L-378
AUC: 62.3
precision: 67.0
visual-object-tracking-on-trackingnetLoRAT-g-378
Accuracy: 86.0
Normalized Precision: 90.2
Precision: 86.1
visual-object-tracking-on-trackingnetLoRAT-L-378
Accuracy: 85.6
Normalized Precision: 89.7
Precision: 85.4
visual-object-tracking-on-uav123LoRAT-L-378
AUC: 0.725
visual-object-tracking-on-uav123LoRAT-g-378
AUC: 0.739

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
追踪遇见LoRA:更快速的训练、更大的模型、更强的性能 | 论文 | HyperAI超神经