
摘要
单目深度估计是一个病态问题,因为同一幅二维图像可能源自无限多种三维场景的投影。尽管该领域领先算法已取得显著进展,但其性能本质上依赖于特定的图像表观特征与相机参数(即内参和外参)的组合,严重限制了其在真实场景中的泛化能力。为应对这一挑战,本文提出一种新颖的地面嵌入模块(ground embedding module),旨在将相机参数与图像视觉线索解耦,从而提升模型的泛化性能。在给定相机参数的前提下,该模块生成地面深度图,并将其与输入图像拼接,作为最终深度预测的参考。模块中设计了地面注意力机制,以最优方式融合地面深度与残差深度。所提出的地面嵌入模块具有高度灵活性与轻量化特性,可作为即插即用的模块,无缝集成至多种深度估计网络中。实验结果表明,该方法在多个主流基准测试上均取得了当前最优性能,更重要的是,在广泛多域跨域测试中展现出显著的泛化能力提升。
代码仓库
qcraftai/gedepth
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-ddad | GEDepth | RMSE: 10.596 RMSE log: 0.237 Sq Rel: 2.119 absolute relative error: 0.145 |
| monocular-depth-estimation-on-kitti-eigen | GEDepth | Delta u003c 1.25: 0.9763 Delta u003c 1.25^2: 0.9972 Delta u003c 1.25^3: 0.9993 RMSE: 2.044 RMSE log: 0.076 Sq Rel: 0.142 absolute relative error: 0.048 |