3 个月前

面向端到端自动驾驶的多模态融合Transformer

面向端到端自动驾驶的多模态融合Transformer

摘要

在自动驾驶系统中,如何有效融合互补传感器的表征?基于几何信息的传感器融合方法在目标检测、运动预测等感知任务中已展现出巨大潜力。然而,对于实际驾驶任务而言,三维场景的全局上下文信息至关重要——例如,交通信号灯状态的变化可能影响与该信号灯在几何上相距较远的车辆行为。因此,仅依赖几何信息可能不足以在端到端驾驶模型中实现高效的表征融合。在本研究中,我们发现,基于现有传感器融合方法的模仿学习策略在动态目标密集且场景复杂的环境下表现欠佳,这类场景需要全局上下文推理能力,例如在无控制交叉口处理来自多个方向的对向交通流。为此,我们提出了一种新型多模态融合Transformer——TransFuser,通过注意力机制实现图像与激光雷达(LiDAR)表征的高效融合。我们在CARLA城市驾驶仿真平台中,针对包含复杂交通场景的城市环境对所提方法进行了实验验证。结果表明,TransFuser在实现当前最优驾驶性能的同时,相较基于几何信息的融合方法,碰撞事件减少了76%,充分证明了其在复杂动态场景下融合多模态感知信息的有效性与优越性。

代码仓库

autonomousvision/transfuser
官方
pytorch
GitHub 中提及
Kin-Zhang/mmfn
pytorch
GitHub 中提及

基准测试

基准方法指标
autonomous-driving-on-carla-leaderboardTransfuser
Driving Score: 16.93
Infraction penalty: 0.42
Route Completion: 51.82
autonomous-driving-on-town05-longGeometric Fusion
RC: 69.17
autonomous-driving-on-town05-longTransFuser
DS: 33.15
RC: 56.36
autonomous-driving-on-town05-shortTransFuser
DS: 54.52
RC: 78.41
autonomous-driving-on-town05-shortGeometric Fusion
RC: 86.91
semantic-segmentation-on-kitti-360TransFuser (RGB-LiDAR)
mIoU: 56.57

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向端到端自动驾驶的多模态融合Transformer | 论文 | HyperAI超神经