
摘要
在计算机视觉的诸多应用中,感知三维信息具有至关重要的意义。近年来,单目深度估计技术取得了显著进展,表明仅通过训练深度神经网络来预测逆深度(inverse depth)和相机位姿,即可从单个摄像头输入中获取三维信息,而无需依赖真实标注数据。然而,现有大多数方法在训练过程中仍需显式输入相机参数,导致无法使用真实场景(wild)中的图像序列进行训练。尽管已有部分方法尝试同时预测相机内参,但其性能仍不及将相机参数作为输入的最新方法。本文提出一种新方法,仅通过单目图像序列即可隐式估计针孔相机内参,同时联合估计深度与位姿。此外,通过引入高效的亚像素卷积(sub-pixel convolutions),我们实现了高保真度的深度估计。为进一步提升实际应用潜力,我们在框架中嵌入了像素级不确定性估计机制。最终实验表明,该方法可在不依赖相机内参先验知识的前提下,实现精确的深度预测,并在KITTI基准测试中超越现有最先进方法的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-kitti-eigen-1 | CamLessMonoDepth (V1)-640x192 | absolute relative error: 0.105 |
| monocular-depth-estimation-on-kitti-eigen-1 | CamLessMonoDepth-1024x320 | absolute relative error: 0.102 |
| monocular-depth-estimation-on-kitti-eigen-1 | CamLessMonoDepth (V2)-640x192 | absolute relative error: 0.106 |