3 个月前

EffoVPR:面向视觉位置识别的有效基础模型利用

EffoVPR:面向视觉位置识别的有效基础模型利用

摘要

视觉位置识别(Visual Place Recognition, VPR)的任务是从带有地理标签的图像数据库中预测查询图像的位置。近年来,VPR领域的研究强调了使用如DINOv2等预训练基础模型在该任务中的显著优势。然而,这些模型在未经针对VPR特定数据进行微调的情况下,通常被认为表现不足。本文提出了一种有效的方法,以充分挖掘基础模型在VPR任务中的潜力。我们证明,从自注意力(self-attention)层中提取的特征,即使在零样本(zero-shot)设置下,也能作为强大的重排序(re-ranker)机制,显著提升识别性能。所提方法不仅优于以往的零样本方法,其性能甚至可与多种监督学习方法相媲美。进一步地,我们展示了一种单阶段方法,通过利用视觉Transformer(ViT)内部层进行特征池化,能够生成全局特征,并实现当前最先进的性能,同时保持极高的特征紧凑性——特征维度低至128维。此外,将我们提出的局部基础模型特征用于重排序,进一步扩大了与现有方法的性能差距。实验结果表明,该方法在复杂场景下展现出卓越的鲁棒性与泛化能力,成功应对遮挡、昼夜交替以及季节性变化等挑战,创下新的SOTA(State-of-the-Art)性能纪录。

基准测试

基准方法指标
visual-place-recognition-on-amstertimeEffoVPR
Recall@1: 65.5
visual-place-recognition-on-eynshamEffoVPR
Recall@1: 91.0
visual-place-recognition-on-mapillary-testEffoVPR
Recall@1: 79.0
Recall@10: 91.6
Recall@5: 89.0
visual-place-recognition-on-mapillary-valEffoVPR
Recall@1: 92.8
Recall@10: 97.4
Recall@5: 97.2
visual-place-recognition-on-nordlandEffoVPR
Recall@1: 95.0
Recall@5: 98.6
visual-place-recognition-on-pittsburgh-30kEffoVPR
Recall@1: 93.9
Recall@5: 97.4
visual-place-recognition-on-san-franciscoEffoVPR
Recall@1: 93.0
visual-place-recognition-on-sf-xl-test-v1EffoVPR
Recall@1: 95.5
Recall@10: 98.1
visual-place-recognition-on-sf-xl-test-v2EffoVPR
Recall@1: 94.5
Recall@10: 97.8
Recall@5: 98.2
visual-place-recognition-on-st-luciaEffoVPR
Recall@1: 100.0
Recall@5: 100.0
visual-place-recognition-on-tokyo247EffoVPR
Recall@1: 98.7
Recall@10: 98.7
Recall@5: 98.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EffoVPR:面向视觉位置识别的有效基础模型利用 | 论文 | HyperAI超神经