
摘要
无监督单目深度估计框架在自动驾驶领域展现出良好的性能。然而,现有方法主要依赖于简单的卷积神经网络进行自运动(ego-motion)恢复,在动态复杂的真实场景中难以准确估计相机位姿。这些不精确的相机位姿会不可避免地导致光度重建质量下降,并向深度估计网络提供错误的监督信号,从而误导模型学习。本文提出一种名为 SCIPaD 的新方法,通过引入空间线索实现无监督下的深度与位姿联合学习。具体而言,我们设计了一种置信度感知的特征光流估计器,用于获取二维特征点的位置位移及其对应的置信度水平;同时,提出一种位置线索聚合模块,将 DepthNet 生成的伪三维点云与二维特征光流融合为统一的几何位置表示;最后,引入一种分层位置嵌入注入器,可选择性地将空间线索注入语义特征中,以增强相机位姿解码的鲁棒性。大量实验与分析表明,所提方法在多项指标上均优于现有最先进方法。尤为显著的是,在 KITTI 里程计数据集上,SCIPaD 将相机位姿估计的平均平移误差降低了 22.2%,平均角度误差降低了 34.8%。相关源代码已公开,访问地址为:\url{https://mias.group/SCIPaD}。
代码仓库
fengyi233/SCIPaD
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| camera-pose-estimation-on-kitti-odometry | SCIPaD | Absolute Trajectory Error [m]: 20.83 Average Rotational Error er[%]: 3.17 Average Translational Error et[%]: 8.63 |
| monocular-depth-estimation-on-kitti-eigen-1 | SCIPaD(M+640x192) | Delta u003c 1.25: 0.897 Delta u003c 1.25^2: 0.964 Delta u003c 1.25^3: 0.983 Mono: O RMSE: 4.391 RMSE log: 0.175 Resolution: 640x192 Sq Rel: 0.732 absolute relative error: 0.098 |
| monocular-depth-estimation-on-kitti-eigen-1 | SCIPaD | Delta u003c 1.25: 0.918 Delta u003c 1.25^2: 0.970 Delta u003c 1.25^3: 0.985 RMSE: 4.056 RMSE log: 0.166 Resolution: 640x192 Sq Rel: 0.650 absolute relative error: 0.090 |