
摘要
基于卷积神经网络(CNN)的跨视角图像地理定位方法主要依赖极坐标变换,难以建模全局相关性。为此,我们提出一种纯Transformer架构的方法(TransGeo),从全新视角解决上述局限。TransGeo 充分利用了Transformer在建模全局信息和显式编码位置信息方面的优势。此外,我们进一步发挥Transformer输入的灵活性,提出一种注意力引导的非均匀裁剪方法,能够有效剔除信息量低的图像区域,在性能几乎不受影响的前提下显著降低计算开销。节省下来的计算资源可专门用于提升关键信息区域的分辨率,从而在不增加额外计算成本的情况下实现性能提升。这一“注意力引导、聚焦放大”(attend and zoom-in)的策略,与人类观察图像时的行为高度相似。值得注意的是,TransGeo 在城市与乡村数据集上均取得了当前最优的定位性能,且计算成本远低于传统CNN方法。该方法无需依赖极坐标变换,推理速度也优于基于CNN的方法。代码已开源,地址为:https://github.com/Jeff-Zilence/TransGeo2022。
代码仓库
jeff-zilence/transgeo2022
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-based-localization-on-cvact | Transgeo | Recall@1: 84.95 Recall@1 (%): 98.37 Recall@10: 95.78 Recall@5: 94.14 |
| image-based-localization-on-cvusa-1 | Transgeo | Recall@1: 94.08 Recall@10: 99.04 Recall@5: 98.36 Recall@top1%: 99.77 |
| image-based-localization-on-vigor-cross-area | TransGeo | Hit Rate: 21.21 Recall@1: 18.99 Recall@1%: 88.94 Recall@10: 46.91 Recall@5: 38.24 |
| image-based-localization-on-vigor-same-area | TransGeo | Hit Rate: 73.09 Recall@1: 61.48 Recall@1%: 99.56 Recall@10: 91.88 Recall@5: 87.54 |