3 个月前

TransGeo:Transformer 便是跨视角图像地理定位所需的一切

TransGeo:Transformer 便是跨视角图像地理定位所需的一切

摘要

基于卷积神经网络(CNN)的跨视角图像地理定位方法主要依赖极坐标变换,难以建模全局相关性。为此,我们提出一种纯Transformer架构的方法(TransGeo),从全新视角解决上述局限。TransGeo 充分利用了Transformer在建模全局信息和显式编码位置信息方面的优势。此外,我们进一步发挥Transformer输入的灵活性,提出一种注意力引导的非均匀裁剪方法,能够有效剔除信息量低的图像区域,在性能几乎不受影响的前提下显著降低计算开销。节省下来的计算资源可专门用于提升关键信息区域的分辨率,从而在不增加额外计算成本的情况下实现性能提升。这一“注意力引导、聚焦放大”(attend and zoom-in)的策略,与人类观察图像时的行为高度相似。值得注意的是,TransGeo 在城市与乡村数据集上均取得了当前最优的定位性能,且计算成本远低于传统CNN方法。该方法无需依赖极坐标变换,推理速度也优于基于CNN的方法。代码已开源,地址为:https://github.com/Jeff-Zilence/TransGeo2022。

代码仓库

基准测试

基准方法指标
image-based-localization-on-cvactTransgeo
Recall@1: 84.95
Recall@1 (%): 98.37
Recall@10: 95.78
Recall@5: 94.14
image-based-localization-on-cvusa-1Transgeo
Recall@1: 94.08
Recall@10: 99.04
Recall@5: 98.36
Recall@top1%: 99.77
image-based-localization-on-vigor-cross-areaTransGeo
Hit Rate: 21.21
Recall@1: 18.99
Recall@1%: 88.94
Recall@10: 46.91
Recall@5: 38.24
image-based-localization-on-vigor-same-areaTransGeo
Hit Rate: 73.09
Recall@1: 61.48
Recall@1%: 99.56
Recall@10: 91.88
Recall@5: 87.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TransGeo:Transformer 便是跨视角图像地理定位所需的一切 | 论文 | HyperAI超神经