Issar TzachorBoaz LernerMatan LevyMichael GreenTal Berkovitz ShalevGavriel HabibDvir SamuelNoam Korngut ZailerOr ShimshiNir DarshanRami Ben-Ari

摘要
视觉位置识别(Visual Place Recognition, VPR)的任务是从带有地理标签的图像数据库中预测查询图像的位置。近年来,VPR领域的研究强调了使用如DINOv2等预训练基础模型在该任务中的显著优势。然而,这些模型在未经针对VPR特定数据进行微调的情况下,通常被认为表现不足。本文提出了一种有效的方法,以充分挖掘基础模型在VPR任务中的潜力。我们证明,从自注意力(self-attention)层中提取的特征,即使在零样本(zero-shot)设置下,也能作为强大的重排序(re-ranker)机制,显著提升识别性能。所提方法不仅优于以往的零样本方法,其性能甚至可与多种监督学习方法相媲美。进一步地,我们展示了一种单阶段方法,通过利用视觉Transformer(ViT)内部层进行特征池化,能够生成全局特征,并实现当前最先进的性能,同时保持极高的特征紧凑性——特征维度低至128维。此外,将我们提出的局部基础模型特征用于重排序,进一步扩大了与现有方法的性能差距。实验结果表明,该方法在复杂场景下展现出卓越的鲁棒性与泛化能力,成功应对遮挡、昼夜交替以及季节性变化等挑战,创下新的SOTA(State-of-the-Art)性能纪录。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-place-recognition-on-amstertime | EffoVPR | Recall@1: 65.5 |
| visual-place-recognition-on-eynsham | EffoVPR | Recall@1: 91.0 |
| visual-place-recognition-on-mapillary-test | EffoVPR | Recall@1: 79.0 Recall@10: 91.6 Recall@5: 89.0 |
| visual-place-recognition-on-mapillary-val | EffoVPR | Recall@1: 92.8 Recall@10: 97.4 Recall@5: 97.2 |
| visual-place-recognition-on-nordland | EffoVPR | Recall@1: 95.0 Recall@5: 98.6 |
| visual-place-recognition-on-pittsburgh-30k | EffoVPR | Recall@1: 93.9 Recall@5: 97.4 |
| visual-place-recognition-on-san-francisco | EffoVPR | Recall@1: 93.0 |
| visual-place-recognition-on-sf-xl-test-v1 | EffoVPR | Recall@1: 95.5 Recall@10: 98.1 |
| visual-place-recognition-on-sf-xl-test-v2 | EffoVPR | Recall@1: 94.5 Recall@10: 97.8 Recall@5: 98.2 |
| visual-place-recognition-on-st-lucia | EffoVPR | Recall@1: 100.0 Recall@5: 100.0 |
| visual-place-recognition-on-tokyo247 | EffoVPR | Recall@1: 98.7 Recall@10: 98.7 Recall@5: 98.7 |