3 个月前

EigenPlaces:训练视角鲁棒的视觉位置识别模型

EigenPlaces:训练视角鲁棒的视觉位置识别模型

摘要

视觉场景识别(Visual Place Recognition)是一项旨在仅依据图像的视觉特征(称为查询图像)预测其所在位置的任务。该任务通常通过图像检索实现,即利用学习得到的全局描述子,将查询图像与大规模地理标签图像数据库中最为相似的图像进行匹配。该任务面临的一个主要挑战是:如何在不同视角下识别同一地点。为克服这一限制,本文提出一种新方法——EigenPlaces,通过在来自不同视角的图像上训练神经网络,将视角不变性嵌入到学习得到的全局描述子中。其核心思想是:对训练数据进行聚类,从而显式地让模型接触同一兴趣点(point of interest)的不同视角图像。该兴趣点的选择无需额外的监督信息。我们在文献中最为全面的数据集集合上进行了实验,结果表明,EigenPlaces在多数数据集上均优于此前的最先进方法,同时在训练过程中仅需减少60%的GPU内存,并使用50%更小的描述子。EigenPlaces的代码及训练好的模型已公开于 {\small{\url{https://github.com/gmberton/EigenPlaces}}},而其他基线方法的评估结果可通过 {\small{\url{https://github.com/gmberton/auto_VPR}}} 代码库进行复现。

代码仓库

gmberton/auto_vpr
官方
pytorch
GitHub 中提及
stschubert/vpr_tutorial
pytorch
GitHub 中提及
gmberton/eigenplaces
官方
pytorch
GitHub 中提及
gmberton/VPR-methods-evaluation
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-place-recognition-on-amstertimeEigenPlaces
Recall@1: 48.9
visual-place-recognition-on-eynshamEigenPlaces
Recall@1: 90.7
visual-place-recognition-on-pittsburgh-250kEigenPlaces
Recall@1: 94.1
visual-place-recognition-on-pittsburgh-30kEigenPlaces
Recall@1: 92.5
visual-place-recognition-on-san-franciscoEigenPlaces
Recall@1: 89.6
visual-place-recognition-on-sf-xl-test-v1EigenPlaces
Recall@1: 84.1
visual-place-recognition-on-sf-xl-test-v2EigenPlaces
Recall@1: 90.8
Recall@10: 96.7
Recall@5: 95.7
visual-place-recognition-on-tokyo247EigenPlaces
Recall@1: 93

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EigenPlaces:训练视角鲁棒的视觉位置识别模型 | 论文 | HyperAI超神经