8 个月前

摘要

从全球任意地点拍摄的一张地面级别的RGB图像中预测地理位置（地理定位）是一个极具挑战性的问题。这些挑战包括由于不同环境场景导致的图像巨大多样性，同一地点在一天中的不同时间、天气和季节下外观的巨大变化，更重要的是，预测仅基于一张可能只包含少量地理定位线索的图像。因此，现有的大多数研究工作都局限于特定城市、特定图像或全球地标。在这项工作中，我们专注于开发一种高效的全球尺度单图像地理定位解决方案。为此，我们提出了TransLocator，这是一种统一的双分支 Transformer 网络，能够在整个图像上关注微小细节，并在极端外观变化下生成稳健的特征表示。TransLocator以RGB图像及其语义分割图为输入，在每个 Transformer 层之后在其两个并行分支之间进行交互，并以多任务方式同时执行地理定位和场景识别。我们在四个基准数据集——Im2GPS、Im2GPS3k、YFCC4k和YFCC26k上评估了TransLocator，在大陆级准确率方面比现有最先进方法分别提高了5.5%、14.1%、4.9%和9.9%。此外，TransLocator还在现实世界的测试图像上进行了验证，结果表明其效果优于以往的方法。

源 PDF