6 个月前

摘要

视觉地理定位（Visual Geo-localization, VG）是指通过将一张给定照片与包含已知地理位置图像的大型数据库进行比对，来估计该照片拍摄位置的任务。为探究现有技术在真实城市级视觉地理定位应用中的表现，我们构建了“旧金山超大规模数据集”（San Francisco eXtra Large, SF-XL），这是一个覆盖整座城市的全新数据集，提供了丰富多样的挑战性场景，其规模是此前最大视觉地理定位数据集的30倍。我们发现，当前主流方法难以有效扩展至如此大规模的数据集，因此我们提出一种新型高度可扩展的训练方法——CosPlace。该方法将训练过程建模为分类问题，避免了传统对比学习中所需的昂贵难例挖掘（hard negative mining）步骤。在多种数据集上，CosPlace均取得了当前最优性能，并展现出对严重领域差异的强鲁棒性。此外，与此前最先进方法相比，CosPlace在训练阶段仅需约20%的GPU内存，且在使用8倍更小的特征描述子（descriptors）的情况下仍能取得更优结果，为实现真正意义上的城市级实际视觉地理定位铺平了道路。相关数据集、代码及训练好的模型已公开，供学术研究使用，详见：https://github.com/gmberton/CosPlace。

源 PDF