3 个月前

跨视角地理定位中的联合表示学习与关键点检测

跨视角地理定位中的联合表示学习与关键点检测

摘要

本文研究了跨视角地理定位问题,旨在实现来自不同视角图像之间的匹配。该任务的核心动机在于学习一种具有判别性的、视角不变的视觉表征。受人类视觉系统挖掘局部模式机制的启发,我们提出了一种名为RK-Net的新框架,通过单一网络联合学习具有判别性的视觉表征并检测显著关键点。具体而言,我们引入了一种单元减法注意力模块(Unit Subtraction Attention Module, USAM),该模块能够自动从特征图中发现具有代表性的关键点,并聚焦于显著区域。USAM参数量极少,却能带来显著的性能提升,且可轻松嵌入到多种网络结构中。通过大量实验验证,我们得出以下结论:(1)通过引入USAM,RK-Net实现了无需额外标注数据的端到端联合学习。表征学习与关键点检测是高度相关任务:表征学习有助于提升关键点检测性能,而关键点检测又能增强模型对视角变化引起的外观剧烈差异的鲁棒性。(2)USAM实现简单,可与现有方法无缝集成,进一步提升当前最优性能。我们在三个具有挑战性的数据集——University-1652、CVUSA和CVACT上均取得了具有竞争力的地理定位精度。相关代码已开源,地址为:https://github.com/AggMan96/RK-Net。

基准测试

基准方法指标
drone-navigation-on-university-1652-1SAFA + USAM
AP: 71.77
Recall@1: 83.23
drone-navigation-on-university-1652-1RK-Net
AP: 65.76
Recall@1: 80.17
drone-navigation-on-university-1652-1LPN + USAM
AP: 75.96
Recall@1: 86.59
drone-view-target-localization-on-university-1RK-Net
AP: 70.23
Recall@1: 66.13
drone-view-target-localization-on-university-1LPN + USAM
AP: 80.55
Recall@1: 77.60
drone-view-target-localization-on-university-1SAFA + USAM
AP: 75.79
Recall@1: 72.19
image-based-localization-on-cvactRK-Net
Recall@1: 40.53
Recall@1 (%): 89.12
image-based-localization-on-cvactInstance Loss
Recall@1: 35.24
Recall@1 (%): 87.34
image-based-localization-on-cvusa-1RK-Net
Recall@1: 52.50
Recall@top1%: 96.52

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跨视角地理定位中的联合表示学习与关键点检测 | 论文 | HyperAI超神经