
摘要
从单目图像中估计三维边界框是自动驾驶中的一个关键组成部分,而从这类数据中实现准确的三维目标检测非常具有挑战性。在本研究中,通过大量的诊断实验,我们量化了每个子任务引入的影响,并发现“定位误差”是限制单目三维检测性能的关键因素。此外,我们还探讨了定位误差背后的根本原因,分析了它们可能带来的问题,并提出了三种策略。首先,我们重新审视了二维边界框中心与三维物体投影中心之间的错位问题,这是导致低定位精度的重要因素。其次,我们观察到使用现有技术几乎无法准确地对远处的目标进行定位,而这些样本会误导训练网络。为此,我们建议从训练集中移除这些样本以提高检测器的整体性能。最后,我们提出了一种新的基于三维交并比(3D IoU)的损失函数来估计目标的尺寸,该方法不受“定位误差”的影响。我们在 KITTI 数据集上进行了广泛的实验,结果表明所提出的算法能够实现实时检测,并且显著优于之前的方法。代码将在以下地址公开:https://github.com/xinzhuma/monodle。
代码仓库
xinzhuma/monodle
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-from-monocular-images-on-7 | MonoDLE | AP25: 28.99 AP50: 0.85 |
| 3d-object-detection-on-rope3d | MonoDLE+(G) | AP@0.7: 13.58 |
| monocular-3d-object-detection-on-kitti-cars | MonoDLE | AP Medium: 12.26 |