8 个月前

摘要

自动驾驶需要一个准确且快速的三维感知系统，该系统包括三维目标检测、跟踪和分割。尽管最近基于低成本摄像头的方法已经显示出令人鼓舞的结果，但它们在光照不足或恶劣天气条件下容易受到影响，并且存在较大的定位误差。因此，将摄像头与提供精确远程测量并在所有环境中可靠运行的低成本雷达融合是一种有前景的方法，但尚未得到充分研究。在本文中，我们提出了一种新的摄像头-雷达融合框架——Camera Radar Net（CRN），该框架为各种任务生成了语义丰富且空间准确的鸟瞰图（BEV）特征图。为了克服图像中空间信息不足的问题，我们利用稀疏但精确的雷达点将透视视图图像特征转换为BEV。此外，我们使用多模态可变形注意力机制进一步在BEV中聚合图像和雷达特征图，以解决输入之间的空间错位问题。CRN 在实时设置下以 20 帧/秒的速度运行，在 nuScenes 数据集上实现了与激光雷达检测器相当的性能，并且在 100 米距离设置下的远距离检测中表现更优。此外，在离线设置下，CRN 在 nuScenes 测试集上取得了 62.4% 的 NDS 和 57.5% 的 mAP，并在所有基于摄像头和摄像头-雷达的三维目标检测器中排名第一。

源 PDF