
摘要
我们提出了一种基于DETR框架的高性能点云三维物体检测方法。先前的尝试均因无法从有限规模的训练数据中学习到准确的归纳偏置(inductive biases),导致性能未达最优。特别是,查询(queries)常关注距离目标物体较远的点,违背了目标检测中的局部性原则。为解决这一问题,我们提出一种新颖的三维顶点相对位置编码方法——3D Vertex Relative Position Encoding(3DV-RPE)。该方法在每一解码器层中,根据查询预测的三维边界框,计算每个点相对于该边界框的相对位置编码,从而为模型提供明确的引导信息,使其聚焦于靠近目标物体的点,严格遵循局部性原则。此外,基于对任务本质的深入理解,我们在多个方面系统性地优化了整体检测流程,包括数据归一化等关键步骤。在具有挑战性的ScanNetV2基准测试中,我们的方法取得了显著提升,将先前3DETR的$\rm{AP}{25}$/$\rm{AP}{50}$从65.0\%/47.0\%提升至77.8\%/66.0\%,表现优异。同时,本方法在ScanNetV2和SUN RGB-D两个数据集上均创下新的性能纪录。代码将开源,地址为:http://github.com/yichaoshen-MS/V-DETR。
代码仓库
yichaoshen-ms/v-detr
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-scannetv2 | V-DETR | mAP@0.25: 77.8 mAP@0.5: 65.9 |
| 3d-object-detection-on-sun-rgbd-val | V-DETR | mAP@0.25: 68.0 mAP@0.5: 51.1 |