4 个月前

这张图片来自何处?基于Transformer的野外地理定位

这张图片来自何处?基于Transformer的野外地理定位

摘要

从全球任意地点拍摄的一张地面级别的RGB图像中预测地理位置(地理定位)是一个极具挑战性的问题。这些挑战包括由于不同环境场景导致的图像巨大多样性,同一地点在一天中的不同时间、天气和季节下外观的巨大变化,更重要的是,预测仅基于一张可能只包含少量地理定位线索的图像。因此,现有的大多数研究工作都局限于特定城市、特定图像或全球地标。在这项工作中,我们专注于开发一种高效的全球尺度单图像地理定位解决方案。为此,我们提出了TransLocator,这是一种统一的双分支变压器网络,能够在整个图像上关注微小细节,并在极端外观变化下生成稳健的特征表示。TransLocator以RGB图像及其语义分割图为输入,在每个变压器层之后在其两个并行分支之间进行交互,并以多任务方式同时执行地理定位和场景识别。我们在四个基准数据集——Im2GPS、Im2GPS3k、YFCC4k和YFCC26k上评估了TransLocator,在大陆级准确率方面比现有最先进方法分别提高了5.5%、14.1%、4.9%和9.9%。此外,TransLocator还在现实世界的测试图像上进行了验证,结果表明其效果优于以往的方法。

基准测试

基准方法指标
photo-geolocation-estimation-on-gws15kTranslocator
City level (25 km): 1.1
Continent level (2500 km): 48.3
Country level (750 km): 25.5
Region level (200 km): 8.0
Street level (1 km): 0.5
photo-geolocation-estimation-on-im2gps3kTranslocator
City level (25 km): 31.1
Continent level (2500 km): 80.1
Country level (750 km): 58.9
Region level (200 km): 46.7
Street level (1 km): 11.8
Training Images: 4.7M
photo-geolocation-estimation-on-yfcc26kTranslocator
City level (25 km): 17.8
Continent level (2500 km): 60.6
Country level (750 km): 41.3
Region level (200 km): 28.0
Street level (1 km): 7.2
Training Images: 4.7M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
这张图片来自何处?基于Transformer的野外地理定位 | 论文 | HyperAI超神经