
摘要
除了标准摄像头外,自动驾驶车辆通常还配备多种额外传感器,如激光雷达(lidar)和雷达(radar),这些传感器有助于获取更丰富的信息,以实现对驾驶场景内容的精准感知。尽管近年来已有若干研究致力于通过针对特定场景设计的架构组件,实现特定传感器对之间的融合(如摄像头与激光雷达、摄像头与雷达的融合),但现有文献中仍缺乏一种通用且模块化的传感器融合架构。本文提出 HRFuser,一种面向多模态2D目标检测的模块化架构。该架构采用多分辨率融合策略,可扩展至任意数量的输入模态。HRFuser 的设计基于当前最先进的仅图像高分辨率密集预测网络,并引入了一种新颖的多窗口交叉注意力模块,用于在多个分辨率层级上实现多模态信息的有效融合。通过在 nuScenes 数据集以及恶劣环境下的 DENSE 数据集上进行大量实验,我们验证了所提模型能够有效利用额外模态之间的互补特征,显著优于仅使用摄像头的性能,并在2D目标检测指标下持续超越当前最先进的3D与2D融合方法。相关源代码已公开发布。
代码仓库
timbroed/hrfuser
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 2d-object-detection-on-clear-weather | HRFuser-T | clear hard (AP): 79.48 |
| 2d-object-detection-on-dense-fog | HRFuser-T | dense fog hard (AP): 78.21 light fog hard (AP): 86.5 snow/rain hard (AP): 78.09 |
| object-detection-on-eventped | HRFuser | AP: 46.0 |
| object-detection-on-inoutdoor | HRFuser | AP: 58.6 |
| object-detection-on-stcrowd | HRFuser | AP: 49.0 |
| semantic-segmentation-on-deliver | HRFuser (RGB-D-E-Li) | mIoU: 52.97 |
| semantic-segmentation-on-deliver | HRFuser (RGB-D-Event) | mIoU: 51.83 |
| semantic-segmentation-on-deliver | HRFuser (RGB-Depth) | mIoU: 51.88 |
| semantic-segmentation-on-deliver | HRFuser (RGB-D-LiDAR) | mIoU: 52.72 |
| semantic-segmentation-on-deliver | HRFuser (RGB) | mIoU: 47.95 |
| semantic-segmentation-on-deliver | HRFuser (RGB-Event) | mIoU: 42.22 |
| semantic-segmentation-on-deliver | HRFuser (RGB-LiDAR) | mIoU: 43.13 |
| semantic-segmentation-on-kitti-360 | HRFuser (RGB-LiDAR) | mIoU: 48.74 |
| semantic-segmentation-on-kitti-360 | HRFuser (RGB-Depth) | mIoU: 49.32 |
| semantic-segmentation-on-kitti-360 | HRFuser (RGB-D-LiDAR) | mIoU: 52.61 |