
摘要
近年来,基于单目视频进行无监督深度感知的学习受到广泛关注。该领域的一个关键挑战在于,如何在纹理稀疏或存在动态物体等复杂场景下实现鲁棒且精确的深度估计。本研究通过深入探索密集对应关系先验,为现有框架引入显式的几何约束,作出了三项主要贡献。首先,提出一种上下文-几何深度一致性损失(contextual-geometric depth consistency loss),该方法利用基于估计的自运动(ego-motion)从密集对应关系中三角化生成的深度图,引导模型从上下文信息中学习深度感知。由于显式三角化得到的深度图能够准确反映像素间的相对距离,因此该损失函数显著提升了深度估计的几何一致性。其次,基于观察发现:光流发散度与深度梯度之间存在明确可推导的数学关系,因此设计了一种微分性质相关性损失(differential property correlation loss),用于精细化深度估计,尤其强化了对局部变化的建模能力。第三,提出一种双向流协同调整策略(bidirectional stream co-adjustment strategy),增强了刚性运动流与光流之间的交互作用:在静态场景假设下,该策略促使刚性运动流获得更精确的对应关系,同时提升光流在多样化场景下的适应性与鲁棒性。基于上述创新组件,本文构建了DCPI-Depth框架,其融合了两个双向协同的流结构,在多个公开数据集上均取得了当前最优的性能与良好的泛化能力,显著超越了所有现有方法。具体而言,该方法在无纹理区域和动态物体区域均能实现更准确的深度估计,并展现出更为合理的平滑性。相关源代码将在论文发表后公开发布于 mias.group/DCPI-Depth。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-kitti-eigen-1 | DCPI-Depth (M+832x256+SC-V3) | RMSE: 4.496 Sq Rel: 0.679 absolute relative error: 0.109 |
| monocular-depth-estimation-on-kitti-eigen-1 | DCPI-Depth (M+640x192) | Delta u003c 1.25: 0.902 Delta u003c 1.25^2: 0.967 Delta u003c 1.25^3: 0.985 RMSE: 4.274 RMSE log: 0.170 Sq Rel: 0.662 absolute relative error: 0.095 |
| monocular-depth-estimation-on-kitti-eigen-1 | DCPI-Depth (M+1024x320) | Delta u003c 1.25: 0.914 Delta u003c 1.25^2: 0.969 Delta u003c 1.25^3: 0.985 Mono: O RMSE: 4.113 RMSE log: 0.167 Sq Rel: 0.655 absolute relative error: 0.090 |