
摘要
神经网络在从单张图像估计深度方面展现出强大能力。然而,其推断出的深度图分辨率通常低于一兆像素,且往往缺乏精细的细节,限制了实际应用价值。本文基于对输入图像分辨率与场景结构如何影响深度估计性能的分析,揭示了场景结构的一致性与高频细节之间存在权衡关系。为此,我们提出一种基于简单深度融合网络的方法,将低分辨率与高分辨率的估计结果进行融合,以充分利用这一双重特性。我们提出了双阶段估计方法,以提升全局深度估计的准确性;同时引入补丁选择策略,将局部细节有效注入最终结果。实验表明,通过在不同分辨率下结合变化的上下文信息进行估计融合,仅需使用预训练模型即可生成具有高度细节表现的多兆像素级深度图。
代码仓库
compphoto/BoostingMonocularDepth
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-ibims-1 | Miangoleh et al. (SGR) | D3R: 0.3222 ORD: 0.3938 RMSE: 0.1598 δ1.25: 0.6390 |
| monocular-depth-estimation-on-ibims-1 | Miangoleh et al. (MiDaS) | D3R: 0.4671 ORD: 0.5538 RMSE: 0.1965 δ1.25: 0.7460 |
| monocular-depth-estimation-on-middlebury-2014 | Miangoleh et al. (MiDaS) | D3R: 0.1578 ORD : 0.3467 RMSE: 0.1557 δ1.25: 0.7406 |
| monocular-depth-estimation-on-middlebury-2014 | Miangoleh et al. (SGR) | D3R: 0.2324 ORD : 0.3879 RMSE: 0.1973 δ1.25: 0.7891 |