
摘要
尽管摄像头无处不在,但机器人平台通常依赖于诸如激光雷达(LiDAR)等主动传感器进行直接的三维感知。在本研究中,我们提出了一种新的自监督单目深度估计方法,该方法结合了几何学原理和一种名为PackNet的新深度网络,仅从未标记的单目视频中学习。我们的架构利用了新颖的对称打包和解包模块,通过3D卷积联合学习压缩和解压缩细节保留表示。尽管是自监督的,但我们的方法在KITTI基准测试中超越了其他自监督、半监督和全监督的方法。PackNet中的3D归纳偏置使其能够在输入分辨率和参数数量增加的情况下不会过拟合,从而在域外数据(如NuScenes数据集)上表现更好。此外,它不需要大规模的ImageNet监督预训练,并且可以实时运行。最后,我们发布了DDAD(Dense Depth for Automated Driving),这是一个新的城市驾驶数据集,具有更具挑战性和准确的深度评估,这得益于安装在全球范围内运营的自动驾驶车队上的高密度激光雷达生成的长距离和密集的真实深度数据。
代码仓库
TRI-ML/DDAD
官方
pytorch
GitHub 中提及
sejong-rcv/2021.Paper.TransDSSL
pytorch
GitHub 中提及
TRI-ML/packnet-sfm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-kitti-eigen | PackNet-SfM | absolute relative error: 0.12 |
| monocular-depth-estimation-on-kitti-eigen-1 | PackNet-SfM M | absolute relative error: 0.107 |
| monocular-depth-estimation-on-kitti-object | PackNet-SfM | Abs Rel: 0.071 |