
摘要
确定地球上任何位置的图像是一项复杂的视觉任务,这使得它在评估计算机视觉算法方面具有特别重要的意义。然而,缺乏标准的、大规模的、开放获取的数据集,其中包含可可靠定位的图像,限制了这一领域的潜力。为了解决这一问题,我们引入了OpenStreetView-5M(OSV-5M),这是一个大规模的、开放获取的数据集,包含超过510万张地理参考的街景图像,覆盖了225个国家和地区。与现有的基准数据集不同,我们严格执行训练集和测试集的分离,从而能够评估学习到的地理特征的相关性而不仅仅是记忆能力。为了展示我们数据集的实用性,我们对各种最先进的图像编码器、空间表示方法和训练策略进行了广泛的基准测试。所有相关的代码和模型均可在https://github.com/gastruc/osv5m 获取。
代码仓库
gastruc/osv5m
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| photo-geolocation-estimation-on | OSV-5M | Geoscore: 3361 |
| photo-geolocation-estimation-on | Plonk | Average Distance: 1814 Geoscore: 3361 |