3 个月前

单目3D目标检测是否需要Pseudo-Lidar？

Dennis Park Rares Ambrus Vitor Guizilini Jie Li Adrien Gaidon

摘要

近年来，基于单张图像的3D目标检测技术取得了显著进展，其核心思路是利用单目深度估计生成3D点云，从而将普通摄像头转化为伪激光雷达（pseudo-LiDAR）传感器。这类两阶段检测方法的性能依赖于中间深度估计网络的准确性，而该网络可通过大规模自监督学习在无需人工标注的情况下持续优化。然而，这类方法往往比端到端（end-to-end）方法更容易出现过拟合问题，系统结构更为复杂，且与基于真实激光雷达的检测器之间仍存在显著性能差距。在本工作中，我们提出了一种全新的端到端、单阶段单目3D目标检测方法——DD3D。该方法能够像伪激光雷达方法一样受益于深度预训练，同时规避了其固有局限性。我们的网络架构专门设计用于实现深度估计与3D检测之间的高效信息传递，使模型能够随着无标签预训练数据规模的扩大而持续提升性能。在两个具有挑战性的基准测试中，DD3D均取得了当前最优的检测效果：在KITTI-3D基准上，汽车（Cars）和行人（Pedestrians）的平均精度（AP）分别达到16.34%和9.28%；在NuScenes基准上，实现了41.5%的mAP（平均精度均值）。

代码仓库

tri-ml/vedet

pytorch

GitHub 中提及

tri-ml/dd3d

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
monocular-3d-object-detection-on-kitti-1	DD3D	AP Hard: 8.05
monocular-3d-object-detection-on-kitti-3	DD3D	AP Easy: 13.91
monocular-3d-object-detection-on-kitti-4	DD3D	AP Medium: 9.30
monocular-3d-object-detection-on-kitti-cars	DD3D	AP Medium: 16.34
monocular-3d-object-detection-on-kitti-cars-1	DD3D	AP Hard: 14.20
monocular-3d-object-detection-on-kitti-cars-2	DD3D	AP Easy: 23.22

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供