
摘要
在基础模型迅速扩展的时代,自动驾驶技术正接近一个变革性的门槛,端到端自动驾驶(E2E-AD)因其在数据驱动方式下可大规模扩展的潜力而崭露头角。然而,现有的 E2E-AD 方法大多是在开环日志重放模式下进行评估的,以 L2 误差和碰撞率作为指标(例如,在 nuScenes 数据集中),这无法完全反映算法的驾驶性能,这一点最近已被业界所认可。对于那些在闭环协议下评估的 E2E-AD 方法,它们通常在固定的路线(例如,CARLA 中的 Town05Long 和 Longest6)上进行测试,以驾驶得分为指标,但由于未平滑的指标函数和长路线中的大随机性,这些方法的得分方差较高。此外,这些方法通常会收集自己的数据用于训练,使得算法级别的公平比较难以实现。为了满足全面、真实且公平的测试环境这一重要需求,我们推出了 Bench2Drive——首个用于评估 E2E-AD 系统多种能力的闭环基准测试平台。Bench2Drive 的官方训练数据集包含 200 万个完全注释的帧,这些帧来自 13638 段短片段,均匀分布在 CARLA v2 的 44 种交互场景(如切入、超车、绕行等)、23 种天气条件(如晴天、雾天、雨天等)和 12 种城镇类型(如城市、乡村、大学等)。其评估协议要求 E2E-AD 模型在不同地点和天气条件下通过 44 种交互场景,总计 220 条路线,从而提供对不同情况下驾驶能力的全面且独立的评估。我们实现了最先进的 E2E-AD 模型,并在 Bench2Drive 上对其进行了评估,提供了关于当前状态和未来方向的重要见解。
代码仓库
autonomousvision/carla_garage
官方
pytorch
GitHub 中提及
RenzKa/simlingo
GitHub 中提及
thinklab-sjtu/bench2drivezoo
官方
pytorch
Thinklab-SJTU/Bench2Drive
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| bench2drive-on-bench2drive | AD-MLP | Driving Score: 18.05 |