6 个月前

摘要

单帧数据所包含的信息是有限的，这限制了现有基于视觉的多相机三维目标检测范式的表现。为了从根本上突破该领域的性能瓶颈，本文提出了一种名为BEVDet4D的新范式，将原有的可扩展BEVDet框架从仅限空间维度的三维空间拓展至时空四维空间。通过对原始BEVDet框架进行少量改进，仅需融合前一帧与当前帧对应的特征信息，即可实现对时序线索的有效利用。在此机制下，BEVDet4D在几乎不增加计算开销的前提下，通过查询与对比两个候选特征，成功引入了时间维度的信息。此外，我们通过从学习目标中去除自车运动（ego-motion）和时间因素，显著简化了速度预测任务。实验结果表明，BEVDet4D在具备强泛化能力的同时，将速度预测误差降低了高达62.9%。这使得基于视觉的方法首次在该任务上达到与依赖激光雷达（LiDAR）或雷达（radar）的方法相媲美的水平。在挑战性基准数据集nuScenes上，采用高性能配置的BEVDet4D-Base取得了54.5%的NDS（NuScenes Detection Score）新纪录，相较此前最优方法BEVDet-Base提升了7.3% NDS。相关源代码已公开，供后续研究使用，地址为：https://github.com/HuangJunJie2017/BEVDet。

源 PDF