3 个月前

GSV-Cities:迈向合适的监督视觉场景识别

GSV-Cities:迈向合适的监督视觉场景识别

摘要

本文旨在研究大规模视觉场景识别中的表示学习方法,该任务的核心是通过参考参考图像数据库,确定查询图像所描绘的具体位置。由于环境因素随时间可能发生显著变化(如天气、光照、季节、交通状况及遮挡等),该任务极具挑战性。当前研究进展受限于缺乏具有精确真实标签的大规模数据库。为应对这一挑战,本文提出 GSV-Cities 数据集,该数据集迄今覆盖范围最广,地理跨度遍及全球各大洲超过40座城市,时间跨度长达14年,且具备高度精确的真实标注信息。在此基础上,我们充分挖掘深度度量学习领域最新进展的潜力,专门针对场景识别任务训练神经网络,并系统评估不同损失函数对模型性能的影响。实验结果表明,现有方法在 GSV-Cities 数据集上进行训练后,性能显著提升。此外,本文提出一种全新的全卷积聚合层结构,其性能优于现有主流方法,包括 GeM、NetVLAD 和 CosPlace,在多个大规模基准测试集(如 Pittsburgh、Mapillary-SLS、SPED 和 Nordland)上均取得了新的最先进水平。相关数据集与代码已开源,供学术研究使用,地址为:https://github.com/amaralibey/gsv-cities。

代码仓库

amaralibey/gsv-cities
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-place-recognition-on-mapillary-valConv-AP
Recall@1: 83.4
Recall@10: 92.3
Recall@5: 90.5
visual-place-recognition-on-nordlandConv-AP
Recall@1: 38.5
Recall@5: 53.9
visual-place-recognition-on-pittsburgh-250kConv-AP
Recall@1: 92.4
Recall@10: 98.6
Recall@5: 97.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GSV-Cities:迈向合适的监督视觉场景识别 | 论文 | HyperAI超神经