SimonelliAndrea ; BulòSamuel Rota Rota ; PorziLorenzo ; López-AntequeraManuel ; KontschiederPeter

摘要
在本文中,我们提出了一种从单个RGB图像进行单目3D目标检测的方法,该方法利用了一种新颖的解耦变换来处理2D和3D检测损失,并引入了一种新的自监督置信度评分用于3D边界框。我们提出的损失解耦方法具有双重优势:一方面简化了参数之间复杂交互情况下训练动态的管理,另一方面避开了独立回归项平衡的问题。我们的解决方案通过隔离参数组对特定损失的贡献来克服这些问题,而不会改变损失的本质。此外,我们将损失解耦应用于另一种新的、基于有符号交并比(signed Intersection-over-Union, sIoU)准则的损失,以提高2D检测结果。除了方法上的创新外,我们还对KITTI3D数据集中使用的平均精度(Average Precision, AP)指标进行了批判性回顾,该数据集是目前比较3D检测结果最重要的基准之一。我们识别并解决了11点插值AP指标中的一个缺陷,这一缺陷影响了所有已发表的检测结果,并特别偏向于单目3D检测的结果。我们在KITTI3D和nuScenes数据集上进行了广泛的实验评估和消融研究,大幅提升了汽车类别目标检测的新最先进水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-from-monocular-images-on-4 | MonoDIS | AOE: 0.08 AP 0.5m: 10.7 AP 1.0m: 37.5 AP 2.0m: 69.0 AP 4.0m: 85.7 ASE: 0.15 ATE: 0.61 |