4 个月前

学习通用零样本学习器以实现开放域图像地理定位

学习通用零样本学习器以实现开放域图像地理定位

摘要

图像地理定位是一项具有挑战性的任务,旨在预测给定照片的地理坐标来源。这是一个尚未解决的问题,依赖于将视觉线索与对世界的普遍知识相结合,以在不同地理区域中做出准确的预测。我们介绍了$\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$,这是一款强大的、公开可用的基础模型,不仅在多个开放领域的图像地理定位基准测试中达到了最先进的性能,而且在零样本设置下也表现优异,超过了在超过400万张图像上训练的监督模型。我们的方法引入了一种元学习方法,用于通过从合成标题预训练CLIP来实现泛化的零样本学习,从而将CLIP扎根于所选领域。我们展示了该方法有效地将CLIP的泛化零样本能力转移到了图像地理定位领域,在没有针对固定类别集对StreetCLIP进行微调的情况下,提高了域内泛化的零样本性能。

基准测试

基准方法指标
photo-geolocation-estimation-on-im2gpsStreetCLIP (Zero-Shot)
City level (25 km): 28.3
Continent level (2500 km): 88.2
Country level (750 km): 74.7
Reference images: 0
Region level (200 km): 45.1
Training images: 1.1M
photo-geolocation-estimation-on-im2gps3kStreetCLIP (Zero-Shot)
City level (25 km): 22.4
Continent level (2500 km): 80.4
Country level (750 km): 61.3
Region level (200 km): 37.4
Street level (1 km): -
Training Images: 1.1M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习通用零样本学习器以实现开放域图像地理定位 | 论文 | HyperAI超神经