
摘要
跨视角地理定位(CVGL),即通过匹配卫星图像来确定地面图像的地理位置,在全球导航卫星系统(GNSS)受限的情况下至关重要。然而,由于视角差异显著、定位场景复杂以及需要进行全局定位,这一任务面临着重大挑战。为了解决这些问题,我们提出了一种新颖的CVGL框架,该框架集成了视觉基础模型DINOv2和先进的特征混合器。我们的框架引入了对称InfoNCE损失,并采用了近邻采样和动态相似性采样策略,显著提高了定位精度。实验结果表明,我们的框架在多个公开和自建数据集上均超过了现有方法。为了进一步提升全球范围内的性能,我们开发了CV-Cities,这是一种用于全球CVGL的新数据集。CV-Cities包含223,736个带有地理定位数据的地面-卫星图像对,覆盖六大洲的十六个城市,涵盖了广泛的复杂场景,为CVGL提供了一个具有挑战性的基准测试。使用CV-Cities训练的框架在各种测试城市中表现出高定位精度,突显了其强大的全球化和泛化能力。我们的数据集和代码可在https://github.com/GaoShuang98/CVCities获取。
代码仓库
gaoshuang98/cvcities
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| drone-view-target-localization-on-university-1 | CV-Cities | AP: 95.01 Recall@1: 97.43 |
| image-based-localization-on-cvact | CV-Cities | Recall@1: 92.59 Recall@1 (%): 98.72 Recall@10: 97.82 Recall@5: 97.16 |
| image-based-localization-on-cvusa-1 | CV-Cities | Recall@1: 99.19 Recall@10: 99.85 Recall@5: 99.80 Recall@top1%: 99.92 |
| image-based-localization-on-vigor-cross-area | CV-Cities | Hit Rate: 75.97 Recall@1: 64.61 Recall@1%: 98.63 Recall@10: 91.20 Recall@5: 87.48 |
| image-based-localization-on-vigor-same-area | CV-Cities | Hit Rate: 90.76 Recall@1: 78.27 Recall@1%: 99.67 Recall@10: 97.52 Recall@5: 96.10 |
| visual-place-recognition-on-cv-cities | CV-Cities | Recall@1: 82.91 Recall@5: 90.14 |