7 个月前

摘要

地图是基于图像的相机定位和视觉SLAM系统中的关键组件：它们用于在图像之间建立几何约束，校正相对姿态估计中的漂移，并在跟踪丢失后重新定位相机。然而，地图的确切定义通常因应用而异，并为不同的场景手工设计（例如3D地标、线、平面、视觉词汇包）。我们提出了一种称为MapNet的深度神经网络来表示地图，这使得学习数据驱动的地图表示成为可能。与以往学习地图的工作不同，MapNet不仅利用了图像，还利用了廉价且普遍存在的传感器输入，如视觉里程计和GPS，并将这些输入融合在一起以实现相机定位。这些输入所表达的几何约束传统上被用于束调整或姿态图优化，在MapNet训练中被表述为损失项，并在推理过程中使用。除了直接提高定位精度外，这种方法还允许我们使用来自场景的额外未标记视频序列以自监督的方式更新MapNet（即地图）。此外，我们还提出了一种新的相机旋转参数化方法，更适合基于深度学习的相机姿态回归。实验结果表明，在室内7-Scenes数据集和室外Oxford RobotCar数据集上，MapNet相比以往工作表现出显著的性能提升。MapNet项目的网页为https://goo.gl/mRB3Au。

源 PDF