
摘要
高效地推理场景的语义、空间和时间结构是自动驾驶的关键前提条件。本文介绍了神经注意力场(NEural ATtention fields, NEAT),这是一种新颖的表示方法,能够为端到端模仿学习模型提供此类推理能力。NEAT 是一个连续函数,它将鸟瞰图(Bird's Eye View, BEV)场景坐标中的位置映射到路径点和语义,通过中间注意力图逐步将高维二维图像特征压缩为紧凑表示。这使得我们的模型能够在输入中选择性地关注相关区域,同时忽略与驾驶任务无关的信息,从而有效地将图像与 BEV 表示关联起来。在涉及恶劣环境条件和复杂场景的新评估设置中,NEAT 超越了多个强大的基线模型,并实现了与生成其训练数据的特权 CARLA 专家相当的驾驶评分。此外,对具有 NEAT 中间表示的模型进行注意力图可视化提供了更好的可解释性。
代码仓库
autonomousvision/neat
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| autonomous-driving-on-carla-leaderboard | NEAT | Driving Score: 21.83 Infraction penalty: 0.65 Route Completion: 41.71 |
| carla-longest6-on-carla | Neural Attention Fields (NEAT) | Driving Score: 24 Infraction Score: 0.71 Route Completion: 62 |
| novel-view-synthesis-on-x3d | NeAT | PSNR: 36.01 SSIM: 0.9638 |