
摘要
在自动驾驶系统中,如何有效融合互补传感器的表征?基于几何信息的传感器融合方法在目标检测、运动预测等感知任务中已展现出巨大潜力。然而,对于实际驾驶任务而言,三维场景的全局上下文信息至关重要——例如,交通信号灯状态的变化可能影响与该信号灯在几何上相距较远的车辆行为。因此,仅依赖几何信息可能不足以在端到端驾驶模型中实现高效的表征融合。在本研究中,我们发现,基于现有传感器融合方法的模仿学习策略在动态目标密集且场景复杂的环境下表现欠佳,这类场景需要全局上下文推理能力,例如在无控制交叉口处理来自多个方向的对向交通流。为此,我们提出了一种新型多模态融合Transformer——TransFuser,通过注意力机制实现图像与激光雷达(LiDAR)表征的高效融合。我们在CARLA城市驾驶仿真平台中,针对包含复杂交通场景的城市环境对所提方法进行了实验验证。结果表明,TransFuser在实现当前最优驾驶性能的同时,相较基于几何信息的融合方法,碰撞事件减少了76%,充分证明了其在复杂动态场景下融合多模态感知信息的有效性与优越性。
代码仓库
autonomousvision/transfuser
官方
pytorch
GitHub 中提及
Kin-Zhang/mmfn
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| autonomous-driving-on-carla-leaderboard | Transfuser | Driving Score: 16.93 Infraction penalty: 0.42 Route Completion: 51.82 |
| autonomous-driving-on-town05-long | Geometric Fusion | RC: 69.17 |
| autonomous-driving-on-town05-long | TransFuser | DS: 33.15 RC: 56.36 |
| autonomous-driving-on-town05-short | TransFuser | DS: 54.52 RC: 78.41 |
| autonomous-driving-on-town05-short | Geometric Fusion | RC: 86.91 |
| semantic-segmentation-on-kitti-360 | TransFuser (RGB-LiDAR) | mIoU: 56.57 |