
摘要
本文提出了一种计算效率高的方法,利用卷积神经网络(CNNs)在三维点云中直接检测物体。具体而言,该方法通过采用以特征为中心的投票方案来实现新颖的卷积层,这些卷积层显式地利用了输入数据中的稀疏性。为此,我们研究了不同架构在精度和速度之间的权衡,并进一步提出了对滤波器激活使用L1惩罚,以鼓励中间表示的稀疏性。据我们所知,这是首次提出用于高效大规模处理三维数据的稀疏卷积层和L1正则化的工作。我们在KITTI物体检测基准上验证了该方法的有效性,并展示了仅包含三层的Vote3Deep模型在激光和激光-视觉融合方法中均超过了先前的最佳水平,性能提升高达40%,同时在处理时间方面仍具有很强的竞争力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-kitti-cars-easy | Vote3Deep | AP: 76.79 |
| object-detection-on-kitti-cars-hard | Vote3Deep | AP: 63.23 |
| object-detection-on-kitti-cars-moderate | Vote3Deep | AP: 68.24 |
| object-detection-on-kitti-cyclists-easy | Vote3Deep | AP: 79.92 |
| object-detection-on-kitti-cyclists-hard | Vote3Deep | AP: 62.98 |
| object-detection-on-kitti-cyclists-moderate | Vote3Deep | AP: 67.88 |
| object-detection-on-kitti-pedestrians | Vote3Deep | AP: 55.37 |
| object-detection-on-kitti-pedestrians-easy | Vote3Deep | AP: 68.39 |
| object-detection-on-kitti-pedestrians-hard | Vote3Deep | AP: 52.59 |