
摘要
图像地理定位是一项具有挑战性的任务,旨在预测给定照片的地理坐标来源。这是一个尚未解决的问题,依赖于将视觉线索与对世界的普遍知识相结合,以在不同地理区域中做出准确的预测。我们介绍了$\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$,这是一款强大的、公开可用的基础模型,不仅在多个开放领域的图像地理定位基准测试中达到了最先进的性能,而且在零样本设置下也表现优异,超过了在超过400万张图像上训练的监督模型。我们的方法引入了一种元学习方法,用于通过从合成标题预训练CLIP来实现泛化的零样本学习,从而将CLIP扎根于所选领域。我们展示了该方法有效地将CLIP的泛化零样本能力转移到了图像地理定位领域,在没有针对固定类别集对StreetCLIP进行微调的情况下,提高了域内泛化的零样本性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| photo-geolocation-estimation-on-im2gps | StreetCLIP (Zero-Shot) | City level (25 km): 28.3 Continent level (2500 km): 88.2 Country level (750 km): 74.7 Reference images: 0 Region level (200 km): 45.1 Training images: 1.1M |
| photo-geolocation-estimation-on-im2gps3k | StreetCLIP (Zero-Shot) | City level (25 km): 22.4 Continent level (2500 km): 80.4 Country level (750 km): 61.3 Region level (200 km): 37.4 Street level (1 km): - Training Images: 1.1M |