
摘要
在本文中,我们提出了一种名为Disp R-CNN的新系统,用于从立体图像中进行三维目标检测。许多近期的研究通过首先利用视差估计恢复点云,然后应用三维检测器来解决这一问题。然而,这种做法需要为整幅图像计算视差图,不仅成本高昂,而且无法充分利用类别特定的先验知识。相比之下,我们设计了一个实例视差估计网络(iDispNet),该网络仅对感兴趣对象上的像素预测视差,并学习类别特定的形状先验以实现更精确的视差估计。为了应对训练过程中视差注释稀缺的挑战,我们提出使用统计形状模型生成密集的视差伪真值,而无需依赖激光雷达点云,这使得我们的系统具有更广泛的应用前景。在KITTI数据集上的实验表明,即使在训练时没有激光雷达真值数据的情况下,Disp R-CNN仍能取得具有竞争力的性能,并且在平均精度方面比之前的最先进方法提高了20%。
代码仓库
zju3dv/disprcnn
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-from-stereo-images-on-1 | Disp R-CNN | AP75: 45.78 |
| 3d-object-detection-from-stereo-images-on-2 | Disp R-CNN | AP50: 25.80 |
| 3d-object-detection-from-stereo-images-on-3 | Disp R-CNN | AP50: 24.40 |
| vehicle-pose-estimation-on-kitti-cars-hard | Disp-RCNN (Stereo) | Average Orientation Similarity: 67.16 |