
摘要
视觉场景识别(Visual Place Recognition)是一项旨在仅依据图像的视觉特征(称为查询图像)预测其所在位置的任务。该任务通常通过图像检索实现,即利用学习得到的全局描述子,将查询图像与大规模地理标签图像数据库中最为相似的图像进行匹配。该任务面临的一个主要挑战是:如何在不同视角下识别同一地点。为克服这一限制,本文提出一种新方法——EigenPlaces,通过在来自不同视角的图像上训练神经网络,将视角不变性嵌入到学习得到的全局描述子中。其核心思想是:对训练数据进行聚类,从而显式地让模型接触同一兴趣点(point of interest)的不同视角图像。该兴趣点的选择无需额外的监督信息。我们在文献中最为全面的数据集集合上进行了实验,结果表明,EigenPlaces在多数数据集上均优于此前的最先进方法,同时在训练过程中仅需减少60%的GPU内存,并使用50%更小的描述子。EigenPlaces的代码及训练好的模型已公开于 {\small{\url{https://github.com/gmberton/EigenPlaces}}},而其他基线方法的评估结果可通过 {\small{\url{https://github.com/gmberton/auto_VPR}}} 代码库进行复现。
代码仓库
gmberton/auto_vpr
官方
pytorch
GitHub 中提及
stschubert/vpr_tutorial
pytorch
GitHub 中提及
gmberton/eigenplaces
官方
pytorch
GitHub 中提及
gmberton/VPR-methods-evaluation
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-place-recognition-on-amstertime | EigenPlaces | Recall@1: 48.9 |
| visual-place-recognition-on-eynsham | EigenPlaces | Recall@1: 90.7 |
| visual-place-recognition-on-pittsburgh-250k | EigenPlaces | Recall@1: 94.1 |
| visual-place-recognition-on-pittsburgh-30k | EigenPlaces | Recall@1: 92.5 |
| visual-place-recognition-on-san-francisco | EigenPlaces | Recall@1: 89.6 |
| visual-place-recognition-on-sf-xl-test-v1 | EigenPlaces | Recall@1: 84.1 |
| visual-place-recognition-on-sf-xl-test-v2 | EigenPlaces | Recall@1: 90.8 Recall@10: 96.7 Recall@5: 95.7 |
| visual-place-recognition-on-tokyo247 | EigenPlaces | Recall@1: 93 |