8 个月前

摘要

端到端自动驾驶在近年来取得了令人印象深刻的进展。现有的方法通常采用解耦的编码器-解码器范式，其中编码器从原始传感器数据中提取隐含特征，而解码器则输出自车未来的轨迹或动作。在这种范式下，编码器无法获取自车预期的行为，这使得解码器需要承担从庞大的感受野中识别出安全关键区域并推断未来情况的任务。更为不利的是，解码器通常由几个简单的多层感知机（MLP）或门控循环单元（GRU）组成，而编码器则是精心设计的（例如，结合了重型ResNet或Transformer）。这种不平衡的资源-任务分配阻碍了学习过程。在这项工作中，我们旨在通过两个原则来缓解上述问题：(1) 充分利用编码器的能力；(2) 增强解码器的能力。具体而言，我们首先基于编码器特征预测一个粗粒度的未来位置和动作。然后，在该位置和动作条件下，想象未来的场景以检查如果我们按此驾驶会产生什么影响。我们还检索预测坐标周围的编码器特征，以获得关于安全关键区域的细粒度信息。最后，基于预测的未来场景和检索到的重要特征，我们通过预测其相对于真实值的偏移量来细化粗粒度的位置和动作。上述细化模块可以以级联的方式堆叠，从而利用条件未来的时间-空间先验知识扩展解码器的能力。我们在CARLA模拟器上进行了实验，并在闭环基准测试中达到了最先进的性能。广泛的消融研究表明了每个所提模块的有效性。

源 PDF