3 个月前

面向大规模应用的视觉地理定位再思考

面向大规模应用的视觉地理定位再思考

摘要

视觉地理定位(Visual Geo-localization, VG)是指通过将一张给定照片与包含已知地理位置图像的大型数据库进行比对,来估计该照片拍摄位置的任务。为探究现有技术在真实城市级视觉地理定位应用中的表现,我们构建了“旧金山超大规模数据集”(San Francisco eXtra Large, SF-XL),这是一个覆盖整座城市的全新数据集,提供了丰富多样的挑战性场景,其规模是此前最大视觉地理定位数据集的30倍。我们发现,当前主流方法难以有效扩展至如此大规模的数据集,因此我们提出一种新型高度可扩展的训练方法——CosPlace。该方法将训练过程建模为分类问题,避免了传统对比学习中所需的昂贵难例挖掘(hard negative mining)步骤。在多种数据集上,CosPlace均取得了当前最优性能,并展现出对严重领域差异的强鲁棒性。此外,与此前最先进方法相比,CosPlace在训练阶段仅需约20%的GPU内存,且在使用8倍更小的特征描述子(descriptors)的情况下仍能取得更优结果,为实现真正意义上的城市级实际视觉地理定位铺平了道路。相关数据集、代码及训练好的模型已公开,供学术研究使用,详见:https://github.com/gmberton/CosPlace。

代码仓库

stschubert/vpr_tutorial
pytorch
GitHub 中提及
gmberton/cosplace
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-place-recognition-on-17-placesCosPlace
Recall@1: 61.08
visual-place-recognition-on-baidu-mallCosPlace
Recall@1: 41.62
visual-place-recognition-on-gardens-pointCosPlace
Recall@1: 74.00
visual-place-recognition-on-hawkinsCosPlace
Recall@1: 31.36
visual-place-recognition-on-laurel-cavernsCosPlace
Recall@1: 24.11
visual-place-recognition-on-mapillary-valCosPlace (ResNet-101 2048-D)
Recall@1: 86.7
Recall@10: 93.4
Recall@5: 92.1
visual-place-recognition-on-mapillary-valCosPlace
Recall@10: 91.8
Recall@5: 89.9
visual-place-recognition-on-mid-atlanticCosPlace
Recall@1: 20.79
visual-place-recognition-on-mslsCosPlace
Recall@1: 79.6
visual-place-recognition-on-nardo-airCosPlace
Recall@1: 0
visual-place-recognition-on-nardo-air-rCosPlace
Recall@1: 91.55
visual-place-recognition-on-oxford-robotcar-4CosPlace
Recall@1: 91.10
visual-place-recognition-on-pittsburgh-250kCosPlace
Recall@1: 91.5
Recall@10: 97.9
Recall@5: 96.9
visual-place-recognition-on-pittsburgh-30kCosPlace
Recall@1: 90.45
visual-place-recognition-on-pittsburgh-30kCosPlace (ResNet-101 2048-D)
Recall@1: 90.4
Recall@5: 95.7
visual-place-recognition-on-sf-xl-test-v1CosPlace
Recall@1: 64.7
Recall@10: 76.6
Recall@5: 73.3
visual-place-recognition-on-sf-xl-test-v2CosPlace
Recall@1: 83.4
Recall@10: 94.1
Recall@5: 91.6
visual-place-recognition-on-st-luciaCosPlace
Recall@1: 99.59
Recall@5: 99.9
visual-place-recognition-on-tokyo247CosPlace
Recall@1: 82.2
visual-place-recognition-on-tokyo247CosPlace (ResNet-101 2048-D)
Recall@10: 96.5
Recall@5: 95.9
visual-place-recognition-on-vp-airCosPlace
Recall@1: 8.12

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向大规模应用的视觉地理定位再思考 | 论文 | HyperAI超神经