6 个月前

摘要

本文旨在研究大规模视觉场景识别中的表示学习方法，该任务的核心是通过参考参考图像数据库，确定查询图像所描绘的具体位置。由于环境因素随时间可能发生显著变化（如天气、光照、季节、交通状况及遮挡等），该任务极具挑战性。当前研究进展受限于缺乏具有精确真实标签的大规模数据库。为应对这一挑战，本文提出 GSV-Cities 数据集，该数据集迄今覆盖范围最广，地理跨度遍及全球各大洲超过40座城市，时间跨度长达14年，且具备高度精确的真实标注信息。在此基础上，我们充分挖掘深度度量学习领域最新进展的潜力，专门针对场景识别任务训练神经网络，并系统评估不同损失函数对模型性能的影响。实验结果表明，现有方法在 GSV-Cities 数据集上进行训练后，性能显著提升。此外，本文提出一种全新的全卷积聚合层结构，其性能优于现有主流方法，包括 GeM、NetVLAD 和 CosPlace，在多个大规模基准测试集（如 Pittsburgh、Mapillary-SLS、SPED 和 Nordland）上均取得了新的最先进水平。相关数据集与代码已开源，供学术研究使用，地址为：https://github.com/amaralibey/gsv-cities。

源 PDF