
摘要
基于查询的Transformer在众多图像领域任务中展现出构建长距离注意力的强大潜力,但由于点云数据规模庞大,其在基于LiDAR的3D目标检测任务中尚未得到充分应用。本文提出CenterFormer,一种基于中心点的Transformer网络,用于3D目标检测。CenterFormer首先利用中心热图在标准体素化点云编码器的基础上筛选中心候选点,随后将中心候选点的特征作为Transformer中的查询嵌入(query embedding)。为进一步融合多帧特征,我们设计了一种通过交叉注意力机制进行特征融合的方法。最后,在输出的中心特征表示上添加回归头,以预测边界框。该设计有效降低了Transformer结构的收敛难度与计算复杂度。实验结果表明,相较于当前先进的无锚框目标检测网络基线,CenterFormer取得了显著性能提升。在Waymo开放数据集上,CenterFormer作为单模型实现了当前最优性能,在验证集上达到73.7%的mAPH,在测试集上达到75.6%的mAPH,显著超越了所有此前发表的基于CNN和Transformer的方法。项目代码已公开,可访问:https://github.com/TuSimple/centerformer
代码仓库
tusimple/centerformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-waymo-cyclist | CenterFormer | APH/L2: 73.3 |
| 3d-object-detection-on-waymo-open-dataset | CenterFormer | mAPH/L2: 68.9 |
| 3d-object-detection-on-waymo-pedestrian | CenterFormer | APH/L2: 75.0 |
| 3d-object-detection-on-waymo-vehicle | CenterFormer | APH/L2: 73.8 |