8 个月前

摘要

端到端自动驾驶的目标是构建一个完全可微分的系统，该系统以原始传感器数据为输入，直接输出自车的规划轨迹或控制信号。目前最先进的方法通常遵循“教师-学生”范式。教师模型利用特权信息（周围代理和地图元素的真实状态）来学习驾驶策略。学生模型仅能访问原始传感器数据，并在教师模型收集的数据上进行行为克隆。通过在规划学习过程中消除感知部分的噪声，这些最先进的工作能够在显著减少数据量的情况下实现更好的性能，相比那些感知与规划耦合的方法。然而，在当前的“教师-学生”范式下，学生模型仍然需要从零开始学习规划模块，这可能具有挑战性，因为原始传感器输入具有冗余性和噪声性，且行为克隆存在因果混淆问题。在这项工作中，我们旨在探索直接采用强大的教师模型进行规划的可能性，同时让学生模型更多地专注于感知部分。我们发现，即使配备了最先进的感知模型，直接让学生模型学习教师模型所需的输入也会导致较差的驾驶性能，这是因为预测的特权输入与真实值之间存在较大的分布差异。为此，我们提出了DriveAdapter方法，该方法在学生（感知）模块和教师（规划）模块之间使用特征对齐目标函数的适配器。此外，由于纯基于学习的教师模型本身并不完美，并偶尔会违反安全规则，我们提出了一种带有掩码的动作引导特征学习方法，以进一步将手工设计规则的先验知识注入到学习过程中。

源 PDF