
摘要
从全球任意地点拍摄的一张地面级别的RGB图像中预测地理位置(地理定位)是一个极具挑战性的问题。这些挑战包括由于不同环境场景导致的图像巨大多样性,同一地点在一天中的不同时间、天气和季节下外观的巨大变化,更重要的是,预测仅基于一张可能只包含少量地理定位线索的图像。因此,现有的大多数研究工作都局限于特定城市、特定图像或全球地标。在这项工作中,我们专注于开发一种高效的全球尺度单图像地理定位解决方案。为此,我们提出了TransLocator,这是一种统一的双分支变压器网络,能够在整个图像上关注微小细节,并在极端外观变化下生成稳健的特征表示。TransLocator以RGB图像及其语义分割图为输入,在每个变压器层之后在其两个并行分支之间进行交互,并以多任务方式同时执行地理定位和场景识别。我们在四个基准数据集——Im2GPS、Im2GPS3k、YFCC4k和YFCC26k上评估了TransLocator,在大陆级准确率方面比现有最先进方法分别提高了5.5%、14.1%、4.9%和9.9%。此外,TransLocator还在现实世界的测试图像上进行了验证,结果表明其效果优于以往的方法。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| photo-geolocation-estimation-on-gws15k | Translocator | City level (25 km): 1.1 Continent level (2500 km): 48.3 Country level (750 km): 25.5 Region level (200 km): 8.0 Street level (1 km): 0.5 |
| photo-geolocation-estimation-on-im2gps3k | Translocator | City level (25 km): 31.1 Continent level (2500 km): 80.1 Country level (750 km): 58.9 Region level (200 km): 46.7 Street level (1 km): 11.8 Training Images: 4.7M |
| photo-geolocation-estimation-on-yfcc26k | Translocator | City level (25 km): 17.8 Continent level (2500 km): 60.6 Country level (750 km): 41.3 Region level (200 km): 28.0 Street level (1 km): 7.2 Training Images: 4.7M |