
摘要
近年来,基于单张图像的3D目标检测技术取得了显著进展,其核心思路是利用单目深度估计生成3D点云,从而将普通摄像头转化为伪激光雷达(pseudo-LiDAR)传感器。这类两阶段检测方法的性能依赖于中间深度估计网络的准确性,而该网络可通过大规模自监督学习在无需人工标注的情况下持续优化。然而,这类方法往往比端到端(end-to-end)方法更容易出现过拟合问题,系统结构更为复杂,且与基于真实激光雷达的检测器之间仍存在显著性能差距。在本工作中,我们提出了一种全新的端到端、单阶段单目3D目标检测方法——DD3D。该方法能够像伪激光雷达方法一样受益于深度预训练,同时规避了其固有局限性。我们的网络架构专门设计用于实现深度估计与3D检测之间的高效信息传递,使模型能够随着无标签预训练数据规模的扩大而持续提升性能。在两个具有挑战性的基准测试中,DD3D均取得了当前最优的检测效果:在KITTI-3D基准上,汽车(Cars)和行人(Pedestrians)的平均精度(AP)分别达到16.34%和9.28%;在NuScenes基准上,实现了41.5%的mAP(平均精度均值)。
代码仓库
tri-ml/vedet
pytorch
GitHub 中提及
tri-ml/dd3d
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-3d-object-detection-on-kitti-1 | DD3D | AP Hard: 8.05 |
| monocular-3d-object-detection-on-kitti-3 | DD3D | AP Easy: 13.91 |
| monocular-3d-object-detection-on-kitti-4 | DD3D | AP Medium: 9.30 |
| monocular-3d-object-detection-on-kitti-cars | DD3D | AP Medium: 16.34 |
| monocular-3d-object-detection-on-kitti-cars-1 | DD3D | AP Hard: 14.20 |
| monocular-3d-object-detection-on-kitti-cars-2 | DD3D | AP Easy: 23.22 |