4 个月前

Pair-VPR:具有位置感知的预训练和对比对分类的视觉位置识别方法(基于视觉变换器)

Pair-VPR:具有位置感知的预训练和对比对分类的视觉位置识别方法(基于视觉变换器)

摘要

在本研究中,我们提出了一种新颖的视觉位置识别(Visual Place Recognition, VPR)联合训练方法,该方法同时学习全局描述符和用于重新排序的图像对分类器。图像对分类器可以预测给定的一对图像是否来自同一地点。网络仅包含视觉变换器(Vision Transformer)组件,用于编码器和图像对分类器,并且这两个组件都通过各自的类别标记进行训练。现有的VPR方法通常使用从通用图像数据集(如ImageNet)预训练的权重来初始化网络。而在本研究中,我们提出了一种替代的预训练策略,即使用孪生掩码图像建模(Siamese Masked Image Modelling)作为预训练任务。我们还提出了一种从多个大型VPR数据集中抽取位置感知图像的采样程序,以预训练我们的模型,从而学习专门针对VPR调优的视觉特征。通过在第二阶段训练中重用掩码图像建模编码器和解码器的权重,Pair-VPR可以在五个基准数据集上实现最先进的VPR性能,并且使用更大的编码器时还能进一步提高定位召回率。Pair-VPR网站为:https://csiro-robotics.github.io/Pair-VPR。

代码仓库

csiro-robotics/Pair-VPR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-place-recognition-on-mapillary-testPair-VPR-p
Recall@1: 81.7
Recall@10: 91.3
Recall@5: 90.2
visual-place-recognition-on-mapillary-testPair-VPR-s
Recall@1: 79.0
Recall@10: 88.3
Recall@5: 86.9
visual-place-recognition-on-mapillary-valPair-VPR-p
Recall@1: 95.4
Recall@10: 97.7
Recall@5: 97.3
visual-place-recognition-on-mapillary-valPair-VPR-s
Recall@1: 93.7
Recall@10: 97.3
Recall@5: 97.2
visual-place-recognition-on-pittsburgh-30kPair-VPR-p
Recall@1: 95.4
Recall@10: 98.0
Recall@5: 97.5
visual-place-recognition-on-pittsburgh-30kPair-VPR-s
Recall@1: 94.7
Recall@10: 97.8
Recall@5: 97.2
visual-place-recognition-on-tokyo247Pair-VPR-s
Recall@1: 98.1
Recall@10: 98.7
Recall@5: 98.4
visual-place-recognition-on-tokyo247Pair-VPR-p
Recall@1: 100
Recall@10: 100
Recall@5: 100

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Pair-VPR:具有位置感知的预训练和对比对分类的视觉位置识别方法(基于视觉变换器) | 论文 | HyperAI超神经