
摘要
本文旨在实现自动驾驶场景中的高精度三维目标检测。我们提出了一种多视图三维网络(Multi-View 3D networks, MV3D)框架,该框架同时以激光雷达点云和RGB图像作为输入,并预测带有方向的三维边界框。我们将稀疏的三维点云编码为紧凑的多视图表示形式。网络由两个子网络组成:一个用于生成三维目标建议框,另一个用于多视图特征融合。建议框生成网络从激光雷达点云的鸟瞰视角表示中高效地生成三维候选框。我们设计了一种深度融合方案,将多个视图中的区域特征进行结合,并在不同路径的中间层之间实现交互。在具有挑战性的KITTI基准测试上的实验结果表明,我们的方法在三维定位和三维检测任务上分别比现有最佳方法高出约25%和30%的平均精度(Average Precision, AP)。此外,在二维检测任务中,我们的方法在基于激光雷达的方法中对困难数据集获得了比现有最佳方法高10.3%的平均精度。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-kitti-cars-easy-val | MV3D | AP: 71.29 |
| 3d-object-detection-on-kitti-cars-easy-val | MV3D (LiDAR) | AP: 71.19 |
| 3d-object-detection-on-kitti-cars-hard-val | MV3D | AP: 56.56 |
| 3d-object-detection-on-kitti-cars-moderate-1 | MV3D | AP: 62.68 |
| birds-eye-view-object-detection-on-kitti-cars-1 | MV (BV+FV) | AP: 86.18 |
| birds-eye-view-object-detection-on-kitti-cars-2 | MV (BV+FV) | AP: 77.32 |
| birds-eye-view-object-detection-on-kitti-cars-3 | MV (BV+FV) | AP: 76.33 |