
摘要
深度学习在相机定位任务中取得了显著成果,但现有的单图像方法通常缺乏鲁棒性,容易产生较大的异常值。尽管顺序性(多图像)或几何约束方法在一定程度上缓解了这一问题,能够学习识别并排除动态物体及光照变化的影响,从而提升性能,但其依赖多帧输入或复杂的几何先验。本文提出,通过引入注意力机制,可引导网络聚焦于更具几何鲁棒性的物体与特征,即使仅以单张图像作为输入,也能在主流基准测试中达到当前最优的定位性能。我们在多个公开的室内与室外数据集上进行了大量实验,充分验证了所提方法的有效性。通过可视化显著性图(saliency maps),我们展示了网络如何自动抑制动态物体的影响,从而实现更优的全局相机位姿回归。相关源代码已开源,地址为:https://github.com/BingCS/AtLoc。
代码仓库
BingCS/AtLoc
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| camera-localization-on-oxford-robotcar-full | AtLoc+ | Mean Translation Error: 21.0 |
| camera-localization-on-oxford-robotcar-full | AtLoc | Mean Translation Error: 29.6 |
| visual-localization-on-oxford-radar-robotcar | AtLoc+ | Mean Translation Error: 17.92 |
| visual-localization-on-oxford-robotcar-full | AtLoc | Mean Translation Error: 29.6 |
| visual-localization-on-oxford-robotcar-full | AtLoc+ | Mean Translation Error: 13.70 |