
摘要
在本研究中,我们提出了一种新颖的视觉位置识别(Visual Place Recognition, VPR)联合训练方法,该方法同时学习全局描述符和用于重新排序的图像对分类器。图像对分类器可以预测给定的一对图像是否来自同一地点。网络仅包含视觉变换器(Vision Transformer)组件,用于编码器和图像对分类器,并且这两个组件都通过各自的类别标记进行训练。现有的VPR方法通常使用从通用图像数据集(如ImageNet)预训练的权重来初始化网络。而在本研究中,我们提出了一种替代的预训练策略,即使用孪生掩码图像建模(Siamese Masked Image Modelling)作为预训练任务。我们还提出了一种从多个大型VPR数据集中抽取位置感知图像的采样程序,以预训练我们的模型,从而学习专门针对VPR调优的视觉特征。通过在第二阶段训练中重用掩码图像建模编码器和解码器的权重,Pair-VPR可以在五个基准数据集上实现最先进的VPR性能,并且使用更大的编码器时还能进一步提高定位召回率。Pair-VPR网站为:https://csiro-robotics.github.io/Pair-VPR。
代码仓库
csiro-robotics/Pair-VPR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-place-recognition-on-mapillary-test | Pair-VPR-p | Recall@1: 81.7 Recall@10: 91.3 Recall@5: 90.2 |
| visual-place-recognition-on-mapillary-test | Pair-VPR-s | Recall@1: 79.0 Recall@10: 88.3 Recall@5: 86.9 |
| visual-place-recognition-on-mapillary-val | Pair-VPR-p | Recall@1: 95.4 Recall@10: 97.7 Recall@5: 97.3 |
| visual-place-recognition-on-mapillary-val | Pair-VPR-s | Recall@1: 93.7 Recall@10: 97.3 Recall@5: 97.2 |
| visual-place-recognition-on-pittsburgh-30k | Pair-VPR-p | Recall@1: 95.4 Recall@10: 98.0 Recall@5: 97.5 |
| visual-place-recognition-on-pittsburgh-30k | Pair-VPR-s | Recall@1: 94.7 Recall@10: 97.8 Recall@5: 97.2 |
| visual-place-recognition-on-tokyo247 | Pair-VPR-s | Recall@1: 98.1 Recall@10: 98.7 Recall@5: 98.4 |
| visual-place-recognition-on-tokyo247 | Pair-VPR-p | Recall@1: 100 Recall@10: 100 Recall@5: 100 |