3 个月前

面向视觉位置识别的预训练模型无缝适配

面向视觉位置识别的预训练模型无缝适配

摘要

近期研究表明,通过大规模数据在通用视觉学习任务上预训练的视觉模型,能够为多种视觉感知问题提供有效的特征表示。然而,针对视觉位置识别(Visual Place Recognition, VPR)任务,对预训练基础模型的利用仍十分有限。由于模型预训练任务与VPR任务在训练目标和数据分布上存在本质差异,如何有效弥合这一差距,并充分释放预训练模型在VPR中的潜力,仍是亟待解决的关键问题。为此,本文提出一种新颖的方法,实现预训练模型向VPR任务的无缝适配。具体而言,为同时获取聚焦显著地标、具备区分能力的全局与局部特征,我们设计了一种混合适配机制,高效地实现全局与局部特征的联合适配。该方法仅通过微调轻量级适配器(adapters)完成,无需更新预训练模型本身。此外,为引导更有效的特征适配,我们提出一种互近邻局部特征损失(mutual nearest neighbor local feature loss),该损失函数可确保生成合理且密集的局部特征,用于局部匹配,同时避免在重排序(re-ranking)阶段进行耗时的空间验证。实验结果表明,所提方法在使用更少训练数据和更短训练时间的情况下,性能优于现有最先进方法。同时,其检索运行时间仅相当于基于RANSAC的空间验证的两阶段VPR方法的约3%。在MSLS挑战赛排行榜上(提交时),本方法位列第一。相关代码已开源,地址为:https://github.com/Lu-Feng/SelaVPR。

代码仓库

Lu-Feng/SelaVPR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-place-recognition-on-mapillary-testSelaVPR
Recall@1: 73.5
Recall@10: 90.6
Recall@5: 87.5
visual-place-recognition-on-mapillary-valSelaVPR
Recall@1: 90.8
Recall@10: 97.2
Recall@5: 96.4
visual-place-recognition-on-nordlandSelaVPR
Recall@1: 86.6
Recall@5: 94.0
visual-place-recognition-on-pittsburgh-250kSelaVPR
Recall@1: 95.7
Recall@10: 98.8
Recall@5: 99.2
visual-place-recognition-on-pittsburgh-30kSelaVPR
Recall@1: 92.8
Recall@5: 97.7
visual-place-recognition-on-st-luciaSelaVPR
Recall@1: 99.8
visual-place-recognition-on-tokyo247SelaVPR
Recall@1: 94.0
Recall@10: 96.8
Recall@5: 97.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向视觉位置识别的预训练模型无缝适配 | 论文 | HyperAI超神经