
摘要
本文研究了车联网(Vehicle-to-Everything, V2X)通信在提升自动驾驶车辆感知性能方面的应用。我们提出了一种基于新型视觉Transformer的鲁棒协同感知框架,通过V2X通信实现道路参与者(即车辆与基础设施)间的信息高效融合。具体而言,我们构建了一个全局注意力模型——V2X-ViT,用于有效整合来自路侧单元和车辆等多智能体的感知信息。V2X-ViT采用异构多智能体自注意力与多尺度窗口自注意力交替堆叠的结构,能够同时捕捉智能体间的交互关系以及单个智能体内部的空间特征。上述关键模块在统一的Transformer架构中设计,可有效应对V2X场景中的典型挑战,包括异步信息共享、位姿误差以及V2X系统组件的异构性。为验证所提方法的有效性,我们基于CARLA仿真平台与OpenCDA框架构建了一个大规模V2X感知数据集。大量实验结果表明,V2X-ViT在三维目标检测任务上达到了当前最优性能,并在复杂、高噪声环境下仍表现出良好的鲁棒性。代码已开源,地址为:https://github.com/DerrickXuNu/v2x-vit。
代码仓库
DerrickXuNu/v2x-vit
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-v2x-sim | V2X-ViT | mAOE: 0.383 mAP: 22.4 mASE: 0.250 mATE: 0.848 |
| 3d-object-detection-on-v2xset | V2X-ViT | AP0.5 (Noisy): 0.836 AP0.5 (Perfect): 0.882 AP0.7 (Noisy): 0.614 AP0.7 (Perfect): 0.712 |