
摘要
基于卷积神经网络(CNN)的单目深度估计在室外驾驶场景中已展现出优异的性能。然而,从单目图像序列中实现室内场景的自监督深度学习对研究人员而言仍面临较大挑战,主要原因有两个:其一是室内场景中存在大量低纹理区域,其二是室内训练数据集中的相机自身运动(ego-motion)较为复杂。针对上述问题,本文提出了一种名为IndoorDepth的新方法,包含两项关键创新。首先,我们设计了一种新型的光度损失函数,该函数在结构相似性(SSIM)基础上进行了改进,以有效应对低纹理区域带来的挑战。其次,为进一步缓解相机位姿预测不准确的问题,我们在网络的不同阶段引入了多级光度损失,用于训练一个包含两个残差位姿模块的深层位姿网络。后续的消融实验验证了各项新设计的有效性。在NYUv2基准数据集上的实验结果表明,IndoorDepth显著优于先前的最先进方法。此外,我们还在ScanNet数据集上验证了该方法的泛化能力。代码已开源,可通过 https://github.com/fcntes/IndoorDepth 获取。
代码仓库
fcntes/indoordepth
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-nyu-depth-v2-4 | IndoorDepth | Absolute relative error (AbsRel): 0.126 Root mean square error (RMSE): 0.494 delta_1: 84.5 delta_2: 96.5 delta_3: 99.1 |