
摘要
构建不依赖高密度激光雷达(LiDAR)的自动驾驶车辆三维感知系统是一个关键的研究问题,因为激光雷达系统的成本远高于摄像头和其他传感器。近期的研究开发了多种仅使用摄像头的方法,这些方法通过可微分的方式将多摄像头图像中的特征“提升”到二维地面平面,从而生成车辆周围三维空间的“鸟瞰图”(BEV)特征表示。尽管这一研究方向已经产生了许多新颖的“提升”方法,但我们注意到训练设置中的其他细节也在发生变化,这使得顶级方法中真正重要的因素变得模糊不清。此外,我们观察到仅使用摄像头并不是现实世界的约束条件,考虑到雷达等额外传感器早已被集成到实际车辆中。在本文中,我们首先尝试阐明BEV感知模型设计和训练协议中的高影响力因素。我们发现批量大小和输入分辨率对性能有显著影响,而“提升”策略的影响则较为有限——即使是一个简单的无参数提升器也能表现良好。其次,我们展示了雷达数据可以显著提高性能,有助于缩小仅使用摄像头系统与配备激光雷达系统的差距。我们分析了导致良好性能的雷达使用细节,并邀请学术界重新考虑这一通常被忽视的传感器平台部分。
代码仓库
valeoai/pointbev
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| bird-s-eye-view-semantic-segmentation-on | Simple-BEV | IoU veh - 224x480 - No vis filter - 100x100 at 0.5: 36.9 IoU veh - 224x480 - Vis filter. - 100x100 at 0.5: 43.0 IoU veh - 448x800 - No vis filter - 100x100 at 0.5: 40.9 IoU veh - 448x800 - Vis filter. - 100x100 at 0.5: 46.6 |
| bird-s-eye-view-semantic-segmentation-on-lyft | Simple-BEV (EfficientNet-b4) | IoU vehicle - 224x480 - Long: 44.5 IoU vehicle - 224x480 - Short: 70.4 |
| bird-s-eye-view-semantic-segmentation-on-lyft | Simple-BEV (ResNet-50) | IoU vehicle - 224x480 - Long: 43.6 IoU vehicle - 224x480 - Short: 70.7 |