
摘要
稠密深度估计对于自动驾驶中的场景理解至关重要。然而,近期基于单目视频的自监督方法在长序列中普遍存在尺度不一致的问题。为解决这一挑战,本文利用广泛存在的全球定位系统(GPS)数据,提出一种动态加权的GPS到尺度(g2s)损失函数,以补充基于外观的损失函数。值得注意的是,GPS数据仅在多模态训练阶段使用,推理阶段无需依赖。通过GPS获取的帧间相对距离提供了与相机配置和场景分布无关的尺度信号,从而促进学习到更具表现力的特征表示。在多个数据集上的大量实验表明,所提方法在推理阶段实现了尺度一致且具备尺度感知能力的深度估计,即使在使用低频GPS数据训练的情况下,仍能显著提升性能。
代码仓库
NeurAI-Lab/G2S
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-kitti-eigen-1 | G2S (MD2-M-R18-pp-640 x 192) | absolute relative error: 0.109 |