4 个月前

Simple-BEV:多传感器BEV感知中真正重要的因素是什么?

Simple-BEV:多传感器BEV感知中真正重要的因素是什么?

摘要

构建不依赖高密度激光雷达(LiDAR)的自动驾驶车辆三维感知系统是一个关键的研究问题,因为激光雷达系统的成本远高于摄像头和其他传感器。近期的研究开发了多种仅使用摄像头的方法,这些方法通过可微分的方式将多摄像头图像中的特征“提升”到二维地面平面,从而生成车辆周围三维空间的“鸟瞰图”(BEV)特征表示。尽管这一研究方向已经产生了许多新颖的“提升”方法,但我们注意到训练设置中的其他细节也在发生变化,这使得顶级方法中真正重要的因素变得模糊不清。此外,我们观察到仅使用摄像头并不是现实世界的约束条件,考虑到雷达等额外传感器早已被集成到实际车辆中。在本文中,我们首先尝试阐明BEV感知模型设计和训练协议中的高影响力因素。我们发现批量大小和输入分辨率对性能有显著影响,而“提升”策略的影响则较为有限——即使是一个简单的无参数提升器也能表现良好。其次,我们展示了雷达数据可以显著提高性能,有助于缩小仅使用摄像头系统与配备激光雷达系统的差距。我们分析了导致良好性能的雷达使用细节,并邀请学术界重新考虑这一通常被忽视的传感器平台部分。

代码仓库

valeoai/pointbev
pytorch
GitHub 中提及

基准测试

基准方法指标
bird-s-eye-view-semantic-segmentation-onSimple-BEV
IoU veh - 224x480 - No vis filter - 100x100 at 0.5: 36.9
IoU veh - 224x480 - Vis filter. - 100x100 at 0.5: 43.0
IoU veh - 448x800 - No vis filter - 100x100 at 0.5: 40.9
IoU veh - 448x800 - Vis filter. - 100x100 at 0.5: 46.6
bird-s-eye-view-semantic-segmentation-on-lyftSimple-BEV (EfficientNet-b4)
IoU vehicle - 224x480 - Long: 44.5
IoU vehicle - 224x480 - Short: 70.4
bird-s-eye-view-semantic-segmentation-on-lyftSimple-BEV (ResNet-50)
IoU vehicle - 224x480 - Long: 43.6
IoU vehicle - 224x480 - Short: 70.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Simple-BEV:多传感器BEV感知中真正重要的因素是什么? | 论文 | HyperAI超神经