6 个月前

摘要

无监督单目深度估计框架在自动驾驶领域展现出良好的性能。然而，现有方法主要依赖于简单的卷积神经网络进行自运动（ego-motion）恢复，在动态复杂的真实场景中难以准确估计相机位姿。这些不精确的相机位姿会不可避免地导致光度重建质量下降，并向深度估计网络提供错误的监督信号，从而误导模型学习。本文提出一种名为 SCIPaD 的新方法，通过引入空间线索实现无监督下的深度与位姿联合学习。具体而言，我们设计了一种置信度感知的特征光流估计器，用于获取二维特征点的位置位移及其对应的置信度水平；同时，提出一种位置线索聚合模块，将 DepthNet 生成的伪三维点云与二维特征光流融合为统一的几何位置表示；最后，引入一种分层位置嵌入注入器，可选择性地将空间线索注入语义特征中，以增强相机位姿解码的鲁棒性。大量实验与分析表明，所提方法在多项指标上均优于现有最先进方法。尤为显著的是，在 KITTI 里程计数据集上，SCIPaD 将相机位姿估计的平均平移误差降低了 22.2%，平均角度误差降低了 34.8%。相关源代码已公开，访问地址为：\url{https://mias.group/SCIPaD}。

源 PDF