4 个月前

PlaNet - 基于卷积神经网络的照片地理定位

PlaNet - 基于卷积神经网络的照片地理定位

摘要

仅通过照片的像素来确定其拍摄地点是否可能?总体而言,这个问题似乎异常困难:构建无法推断出地点的情况轻而易举。然而,图像中常常包含诸如地标、天气模式、植被、道路标记和建筑细节等有用线索,这些线索结合起来可能允许我们确定一个大致的地理位置,有时甚至可以确定确切的地理位置。例如,GeoGuessr 和 View from your Window 等网站表明,人类在整合这些线索以地理定位图像方面相对较为擅长,尤其是在大量图像的情况下。在计算机视觉领域,照片地理定位问题通常采用图像检索方法来解决。相比之下,我们将该问题视为分类问题,通过将地球表面划分为数千个多尺度地理单元(cells),并使用数百万张带有地理标签的图像训练深度网络。以往的方法仅能识别地标或使用全局图像描述符进行近似匹配,而我们的模型能够利用和整合多个可见线索。我们展示了由此产生的模型——称为 PlaNet——不仅优于以往的方法,在某些情况下甚至达到了超越人类的准确性水平。此外,我们通过结合长短期记忆(LSTM)架构将模型扩展到相册中。通过学习利用时间连贯性来地理定位不确定的照片,我们证明了该模型相比单张图像模型性能提高了 50%。

代码仓库

gjacopo/poppysite
GitHub 中提及

基准测试

基准方法指标
photo-geolocation-estimation-on-im2gpsPlaNet (6.2M)
City level (25 km): 18.1
Continent level (2500 km): 65.8
Country level (750 km): 45.6
Reference images: 0
Region level (200 km): 30.0
Street level (1 km): 6.3
Training images: 6.2M
photo-geolocation-estimation-on-im2gpsPlaNet (91M)
City level (25 km): 24.5
Continent level (2500 km): 71.3
Country level (750 km): 53.6
Reference images: 0
Region level (200 km): 37.6
Street level (1 km): 8.4
Training images: 91M
photo-geolocation-estimation-on-yfcc26kPlaNet
City level (25 km): 11.0
Continent level (2500 km): 47.7
Country level (750 km): 28.5
Region level (200 km): 16.9
Street level (1 km): 4.4
Training Images: 30.3M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PlaNet - 基于卷积神经网络的照片地理定位 | 论文 | HyperAI超神经