
摘要
在城市区域内的跨视角地理定位具有挑战性,部分原因在于当前数据集和技术中缺乏地理空间结构。我们提出利用图表示来建模局部观察序列和目标位置的连通性。将问题建模为图可以生成以前未见过的序列,通过采样新的参数配置实现。为了充分利用这一新获得的信息,我们提出了一种基于图神经网络(GNN)的架构,该架构能够生成空间上强大的嵌入向量,并提高相对于孤立图像嵌入的区分能力。我们介绍了SpaGBOL系统,提出了三个创新贡献:1)首个用于跨视角地理定位的图结构数据集,每个节点包含多个街景图像以提高泛化能力;2)引入图神经网络解决该问题,开发了首个利用节点邻近性和特征相似性之间相关性的系统;3)利用图表示的独特属性——我们展示了一种基于邻域方位角的新颖检索过滤方法。SpaGBOL在未见过的测试图上实现了最先进的精度,在SpaGBOL数据集上使用方位矢量匹配过滤时,相对之前的最佳技术Top-1检索准确率提高了11%,而使用方位矢量匹配过滤时则提高了50%。
代码仓库
tavisshore/SpaGBOL
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-view-geo-localisation-on-spagbol | DSM | Top-1: 5.82 Top-1%: 18.62 Top-10: 14.13 Top-5: 10.21 |
| cross-view-geo-localisation-on-spagbol | SpaGBOL | Top-1: 56.48 Top-1%: 87.24 Top-10: 83.85 Top-5: 77.47 |
| cross-view-geo-localisation-on-spagbol | GeoDTR+ | Top-1: 17.49 Top-1%: 59.41 Top-10: 52.01 Top-5: 40.27 |
| cross-view-geo-localisation-on-spagbol | CVM-Net | Top-1: 2.87 Top-1%: 28.33 Top-10: 21.51 Top-5: 13.02 |
| cross-view-geo-localisation-on-spagbol | Sample4Geo | Top-1: 50.80 Top-1%: 82.32 Top-10: 79.96 Top-5: 74.22 |
| cross-view-geo-localisation-on-spagbol | CVFT | Top-1: 4.02 Top-1%: 27.19 Top-10: 20.29 |
| cross-view-geo-localisation-on-spagbol | SAIG-D | Top-1: 25.65 Top-1%: 68.22 Top-10: 62.29 Top-5: 51.44 |
| cross-view-geo-localisation-on-spagbol | L2LTR | Top-1: 11.23 Top-1%: 49.52 Top-10: 42.5 Top-5: 31.27 |
| cross-view-geo-localisation-on-spagbol-180deg | SpaGBOL | Top-1: 40.88 Top-5: 63.79 |
| cross-view-geo-localisation-on-spagbol-90deg | SpaGBOL | Top-1: 18.63 Top-5: 43.2 |
| cross-view-geo-localisation-on-vigor-graph | SpaGBOL | Accuracy (Top-1): 31.88 |