6 个月前

摘要

基于视觉的城区自动驾驶极具挑战性。自动驾驶系统需要学会感知环境并据此作出决策与行动。我们表明，通过将这一复杂的学习问题分解为两个阶段，可以显著简化其求解过程。首先，我们训练一个能够访问“特权信息”的智能体——该智能体可观察环境的真实布局以及所有交通参与者的精确位置，相当于“作弊”。在第二阶段，这个具备特权信息的智能体作为教师，指导一个仅依赖视觉输入的感知-运动（sensorimotor）智能体进行学习。最终获得的感知-运动智能体完全不接触任何特权信息，也不存在“作弊”行为。尽管这种两阶段训练方法初看似乎违背直觉，但我们通过理论分析与实证研究证明，其具有多项重要优势。我们采用该方法训练了一个基于视觉的自动驾驶系统，在CARLA基准测试和最新的NoCrash基准测试中均显著超越现有技术水平。该方法首次实现了在原始CARLA基准所有任务中100%的成功率，刷新了NoCrash基准的纪录，并且相较于此前最先进方法，违规行为频率降低了整整一个数量级。有关本工作的视频摘要，请访问：https://youtu.be/u9ZCxxD-UUw

源 PDF