
摘要
从单张图像估计深度是一项具有挑战性的视觉任务。相较于相对深度估计,度量深度估计因其实际的物理意义以及在真实场景中关键的应用价值而受到更多关注。然而,现有的度量深度估计方法通常在特定数据集上进行训练,这些数据集中的场景具有相似的尺度特征,因此在面对尺度差异显著的场景时,泛化能力面临挑战。为解决这一问题,我们提出了一种新颖的单目深度估计方法——ScaleDepth。该方法将度量深度分解为场景尺度与相对深度两个部分,并分别通过语义感知的尺度预测(Semantic-aware Scale Prediction, SASP)模块和自适应相对深度估计(Adaptive Relative Depth Estimation, ARDE)模块进行预测。所提出的ScaleDepth具有多项优势:首先,SASP模块能够隐式融合图像的结构与语义特征,从而实现对场景尺度的精确预测;其次,ARDE模块可在归一化深度空间内自适应地估计每张图像的相对深度分布;第三,该方法在统一框架下实现了对室内与室外场景的度量深度估计,无需预先设定深度范围,也无需对模型进行微调。大量实验结果表明,ScaleDepth在室内、室外、无约束以及未见场景中均达到了当前最先进的性能水平。项目主页:https://ruijiezhu94.github.io/ScaleDepth
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-ddad | ScaleDepth-NK | Delta u003c 1.25: 0.871 RMSE: 6.097 absolute relative error: 0.121 |
| monocular-depth-estimation-on-diml-outdoor | ScaleDepth-NK | Delta u003c 1.25: 0.058 RMSE: 4.344 absolute relative error: 1.007 |
| monocular-depth-estimation-on-diode-indoor | ScaleDepth-NK | Delta u003c 1.25: 0.447 RMSE: 1.443 absolute relative error: 0.355 |
| monocular-depth-estimation-on-diode-outdoor | ScaleDepth-NK | Delta u003c 1.25: 0.262 RMSE: 8.632 absolute relative error: 0.562 |
| monocular-depth-estimation-on-hypersim | ScaleDepth-NK | Delta u003c 1.25: 0.413 RMSE: 4.825 absolute relative error: 0.381 |
| monocular-depth-estimation-on-ibims-1 | ScaleDepth-NK | RMSE: 0.59 absolute relative error: 0.164 δ1.25: 0.778 |
| monocular-depth-estimation-on-kitti-eigen | ScaleDepth-K | Delta u003c 1.25: 0.98 Delta u003c 1.25^2: 0.998 Delta u003c 1.25^3: 1.000 RMSE: 1.987 RMSE log: 0.073 Sq Rel: 0.136 absolute relative error: 0.048 |
| monocular-depth-estimation-on-nyu-depth-v2 | ScaleDepth-N | Delta u003c 1.25: 0.957 Delta u003c 1.25^2: 0.994 Delta u003c 1.25^3: 0.999 RMSE: 0.267 absolute relative error: 0.074 log 10: 0.032 |
| monocular-depth-estimation-on-sun-rgbd | ScaleDepth-NK | Delta u003c 1.25: 0.866 RMSE: 0.359 absolute relative error: 0.129 |
| monocular-depth-estimation-on-virtual-kitti-2 | ScaleDepth-NK | Delta u003c 1.25: 0.834 RMSE: 4.747 absolute relative error: 0.12 |