WoltersPhilipp ; GilgJohannes ; TeepeTorben ; HerzogFabian ; LaouichiAnouar ; HofmannMartin ; RigollGerhard

摘要
近年来,低成本、以视觉为中心的自动驾驶3D感知系统取得了显著进展,逐渐缩小了与昂贵的基于激光雷达(LiDAR)方法之间的差距。然而,要成为完全可靠的替代方案,主要挑战在于提高深度预测的鲁棒性,因为基于摄像头的系统在长距离检测和恶劣光照及天气条件下表现不佳。本文中,我们介绍了一种名为HyDRa的新颖相机-雷达融合架构,用于多种3D感知任务。该架构基于密集鸟瞰图(BEV, Bird's Eye View)架构的原则,引入了一种混合融合方法,在两个不同的表示空间中结合互补的相机和雷达特征的优势。我们的高度关联变换器模块利用已经处于透视视图中的雷达特征,生成更加鲁棒和精确的深度预测。在鸟瞰图中,我们通过雷达加权深度一致性来细化初始稀疏表示。HyDRa在公开的nuScenes数据集上实现了64.2 NDS(+1.8)和58.4 AMOTA(+1.5)的新纪录,达到了相机-雷达融合领域的最新水平。此外,我们新的语义丰富且空间准确的鸟瞰图特征可以直接转换为强大的占用表示,在Occ3D基准测试中以令人印象深刻的3.7 mIoU超越了所有先前基于摄像头的方法。代码和模型可在https://github.com/phi-wol/hydra获取。
代码仓库
phi-wol/hydra
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-multi-object-tracking-on-nuscenes | HyDRa | AMOTA: 0.584 |
| 3d-multi-object-tracking-on-nuscenes-camera-2 | HyDRa | AMOTA: 0.584 |
| 3d-object-detection-on-nuscenes | HyDRa | NDS: 0.64 mAAE: 0.12 mAOE: 0.42 mAP: 0.57 mASE: 0.25 mATE: 0.40 mAVE: 0.25 |
| 3d-object-detection-on-nuscenes-camera-radar | HyDRa | NDS: 64.2 |
| 3d-object-detection-on-truckscenes | HyDRa | NDS: 22.4 mAP: 12.8 |
| 3d-object-detection-on-view-of-delft-val | HyDRa | mAP: 60.9 |
| prediction-of-occupancy-grid-maps-on-occ3d | HyDRa R50 | mIoU: 44.4 |