
摘要
近期的研究表明,基于卷积神经网络(CNN)的深度估计器和自我运动估计器可以使用未标记的单目视频进行学习。然而,由于几何图像重建中假设场景静止不变,未识别的移动物体限制了这些方法的性能。更为重要的是,由于缺乏适当的约束条件,网络在不同样本上输出的结果存在尺度不一致性,即自我运动网络无法为长视频序列提供完整的相机轨迹,因为每一帧都存在尺度不确定性。本文通过提出一种几何一致性损失来实现尺度一致性的预测,并引入了一种自发现的掩码来处理移动物体和遮挡问题。由于我们没有采用多任务学习的方法,我们的框架更加简单且高效。全面的评估结果表明,我们的深度估计器在KITTI数据集上达到了最先进的性能。此外,我们展示了自我运动网络能够为长视频序列预测出全局尺度一致的相机轨迹,并且由此产生的视觉里程计精度与最近使用立体视频训练的模型相当。据我们所知,这是首次证明使用未标记单目视频训练的深度网络可以预测长视频序列中的全局尺度一致相机轨迹的工作。
代码仓库
JiawangBian/sc_depth_pl
官方
pytorch
JiawangBian/SC-SfMLearner-Release
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| camera-pose-estimation-on-kitti-odometry | SC-Depth | Absolute Trajectory Error [m]: 37.61 Average Rotational Error er[%]: 5.11 Average Translational Error et[%]: 12.20 |
| monocular-depth-estimation-on-kitti-eigen | SC-SfMLearner | absolute relative error: 0.137 |
| monocular-depth-estimation-on-kitti-eigen | SC-SfMLearner_CS+K | absolute relative error: 0.128 |