8 个月前

摘要

全球规模的图像地理定位仍然是一个具有挑战性的问题，因为这些图像可能来自世界各地，具有极大的多样性。尽管基于视觉变换器的方法在地理定位精度方面取得了显著进展，但先前文献中的成功仅限于地标图像的狭窄分布，其性能尚未推广到未见过的地方。我们提出了一种新的地理定位系统，该系统结合了语义地理单元创建、多任务对比预训练以及一种新颖的损失函数。此外，我们的工作首次在位置聚类上进行检索以改进猜测结果。我们在街景数据和通用图像地理定位两个方面对两个模型进行了评估；第一个模型称为PIGEON（基于Geoguessr游戏的数据训练），能够在全球范围内将其超过40%的猜测放置在目标位置25公里以内。我们还开发了一个机器人，并在一个盲测实验中将PIGEON与人类玩家进行对抗，最终排名在所有玩家的前0.01%。我们进一步挑战了世界上顶尖的职业Geoguessr玩家进行六场对决，每场比赛都有数百万观众观看，结果我们赢得了全部六场比赛。第二个模型称为PIGEOTTO（基于Flickr和Wikipedia图像数据集训练），在广泛的图像地理定位基准测试中取得了最先进的成果，在城市级别准确度上比之前的最佳方法高出7.7个百分点，在国家级别准确度上则高出38.8个百分点。我们的研究结果表明，PIGEOTTO是首个能够有效推广到未见过地方的图像地理定位模型，并且我们的方法可以为高精度、全球规模的图像地理定位系统铺平道路。我们的代码已在GitHub上公开。

源 PDF