
摘要
尽管自监督单目深度估计技术取得了显著进展,但在动态场景下仍面临诸多挑战,主要源于对静态世界假设的依赖。本文提出 Manydepth2,旨在实现对动态物体与静态背景的高精度深度估计,同时保持良好的计算效率。为应对动态内容带来的挑战,我们引入光流与粗略单目深度信息,构建一个伪静态参考帧。该参考帧与原始目标帧协同,用于生成具备运动感知能力的代价体(motion-aware cost volume)。此外,为提升网络架构的准确性与鲁棒性,我们提出一种基于注意力机制的深度估计网络,通过融合通道注意力与非局部注意力机制,有效整合多尺度特征图中的信息。在与计算开销相近的方法对比中,Manydepth2 在 KITTI-2015 数据集上的自监督单目深度估计任务中,均方根误差(RMSE)显著降低了约 5%。代码已开源,地址为:https://github.com/kaichen-z/Manydepth2。
代码仓库
kaichen-z/rad
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| camera-pose-estimation-on-kitti-odometry | Manydepth2 | Average Rotational Error er[%]: 2.205 Average Translational Error et[%]: 7.15 |
| monocular-depth-estimation-on-cityscapes | Manydepth2 | Absolute relative error (AbsRel): 0.097 RMSE: 5.827 RMSE log: 0.154 Square relative error (SqRel): 0.792 |
| monocular-depth-estimation-on-kitti-eigen | Manydepth2 | Delta u003c 1.25: 0.909 Delta u003c 1.25^2: 0.968 Delta u003c 1.25^3: 0.984 RMSE: 4.232 RMSE log: 0.649 Sq Rel: 0.170 absolute relative error: 0.091 |
| monocular-depth-estimation-on-kitti-eigen-1 | Manydepth2(M+640x192) | Delta u003c 1.25: 0.909 Delta u003c 1.25^2: 0.968 Delta u003c 1.25^3: 0.984 Mono: O RMSE: 4.232 RMSE log: 0.170 Resolution: 640x192 Sq Rel: 0.649 absolute relative error: 0.091 |
| monocular-depth-estimation-on-kitti-eigen-1 | Manydepth2-NF(M+640x192) | Delta u003c 1.25: 0.909 Delta u003c 1.25^2: 0.968 Delta u003c 1.25^3: 0.985 Mono: O RMSE: 4.246 RMSE log: 0.170 Resolution: 640x192 Sq Rel: 0.676 absolute relative error: 0.094 |