
摘要
基于未标注视频训练的卷积神经网络(CNN)进行单视角深度估计已展现出巨大潜力。然而,目前优异的性能主要集中在街景驾驶场景中,而在其他场景,尤其是由手持设备拍摄的室内视频中,这类方法往往表现不佳。本文研究表明,手持设备所呈现的复杂自身运动(ego-motion)是深度学习过程中的关键障碍。我们的基础分析表明,在训练过程中,旋转分量表现为噪声,而平移分量(基线)则提供了有效的监督信号。为应对这一挑战,我们提出一种数据预处理方法,通过消除图像间的相对旋转,实现训练图像的校正,从而促进更有效的深度学习。实验结果表明,该方法显著提升了模型性能,验证了我们的设计动机。为进一步实现端到端学习并避免依赖预处理步骤,我们提出一种名为Auto-Rectify Network的新网络结构,结合新颖的损失函数,使模型能够在训练过程中自动学习图像校正能力。实验结果表明,该方法在具有挑战性的NYUv2数据集上显著超越了此前无监督学习的最先进方法。此外,我们还验证了所训练模型在ScanNet和Make3D数据集上的泛化能力,同时展示了所提出学习方法在7-Scenes和KITTI数据集上的广泛适用性。
代码仓库
JiawangBian/sc_depth_pl
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-nyu-depth-v2 | SC-DepthV2 | Delta u003c 1.25: 0.820 Delta u003c 1.25^2: 0.956 RMSE: 0.532 absolute relative error: 0.138 log 10: 0.059 |