
摘要
在三维目标检测中,误漏检(False Negatives, FN)——例如遗漏行人、车辆或其他障碍物的预测——可能在自动驾驶场景中引发潜在危险。尽管此类问题具有严重后果,但当前多数三维检测方法对此类问题的研究仍显不足。本文提出一种通用的检测框架——硬实例探查(Hard Instance Probing, HIP),该方法以多阶段方式识别误漏检样本,并引导模型聚焦于挖掘难以检测的困难实例。针对三维目标检测任务,我们基于该框架构建了FocalFormer3D,一种结构简洁但性能优异的检测器,擅长发现困难目标并提升预测召回率。FocalFormer3D采用多阶段查询生成机制以主动挖掘困难样本,并结合基于框级别的Transformer解码器,高效区分大量候选目标中的真实目标。在nuScenes和Waymo数据集上的实验结果验证了FocalFormer3D的卓越性能。其优势不仅体现在检测任务上,也显著提升了跟踪任务的表现,无论在仅使用激光雷达(LiDAR)的单模态设置,还是多模态设置下均表现优异。值得注意的是,FocalFormer3D在nuScenes检测基准上取得了70.5 mAP和73.9 NDS的优异成绩,而在nuScenes跟踪基准上达到72.1 AMOTA,两项指标均位居nuScenes LiDAR排行榜第一。相关代码已开源,访问地址为:https://github.com/NVlabs/FocalFormer3D。
代码仓库
NVlabs/FocalFormer3D
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-nuscenes | FocalFormer3D-F | NDS: 0.75 mAAE: 0.13 mAOE: 0.33 mAP: 0.72 mASE: 0.24 mATE: 0.25 mAVE: 0.23 |
| 3d-object-detection-on-nuscenes | FocalFormer3D-L | NDS: 0.73 mAAE: 0.13 mAOE: 0.34 mAP: 0.69 mASE: 0.24 mATE: 0.25 mAVE: 0.22 |
| 3d-object-detection-on-nuscenes | FocalFormer3D-TTA | NDS: 0.74 mAAE: 0.13 mAOE: 0.32 mAP: 0.71 mASE: 0.24 mATE: 0.24 mAVE: 0.20 |