
摘要
近期研究表明,通过大规模数据在通用视觉学习任务上预训练的视觉模型,能够为多种视觉感知问题提供有效的特征表示。然而,针对视觉位置识别(Visual Place Recognition, VPR)任务,对预训练基础模型的利用仍十分有限。由于模型预训练任务与VPR任务在训练目标和数据分布上存在本质差异,如何有效弥合这一差距,并充分释放预训练模型在VPR中的潜力,仍是亟待解决的关键问题。为此,本文提出一种新颖的方法,实现预训练模型向VPR任务的无缝适配。具体而言,为同时获取聚焦显著地标、具备区分能力的全局与局部特征,我们设计了一种混合适配机制,高效地实现全局与局部特征的联合适配。该方法仅通过微调轻量级适配器(adapters)完成,无需更新预训练模型本身。此外,为引导更有效的特征适配,我们提出一种互近邻局部特征损失(mutual nearest neighbor local feature loss),该损失函数可确保生成合理且密集的局部特征,用于局部匹配,同时避免在重排序(re-ranking)阶段进行耗时的空间验证。实验结果表明,所提方法在使用更少训练数据和更短训练时间的情况下,性能优于现有最先进方法。同时,其检索运行时间仅相当于基于RANSAC的空间验证的两阶段VPR方法的约3%。在MSLS挑战赛排行榜上(提交时),本方法位列第一。相关代码已开源,地址为:https://github.com/Lu-Feng/SelaVPR。
代码仓库
Lu-Feng/SelaVPR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-place-recognition-on-mapillary-test | SelaVPR | Recall@1: 73.5 Recall@10: 90.6 Recall@5: 87.5 |
| visual-place-recognition-on-mapillary-val | SelaVPR | Recall@1: 90.8 Recall@10: 97.2 Recall@5: 96.4 |
| visual-place-recognition-on-nordland | SelaVPR | Recall@1: 86.6 Recall@5: 94.0 |
| visual-place-recognition-on-pittsburgh-250k | SelaVPR | Recall@1: 95.7 Recall@10: 98.8 Recall@5: 99.2 |
| visual-place-recognition-on-pittsburgh-30k | SelaVPR | Recall@1: 92.8 Recall@5: 97.7 |
| visual-place-recognition-on-st-lucia | SelaVPR | Recall@1: 99.8 |
| visual-place-recognition-on-tokyo247 | SelaVPR | Recall@1: 94.0 Recall@10: 96.8 Recall@5: 97.5 |