
摘要
单目3D检测器在汽车和较小物体上表现出色。然而,它们在较大物体上的性能显著下降,导致了致命事故的发生。一些研究者将这种失败归因于训练数据的稀缺性或对较大物体的感受野需求。本文重点探讨了这一尚未得到充分研究的大型物体泛化问题。我们发现,即使在几乎平衡的数据集上,现代前视检测器在面对大型物体时也难以泛化。我们认为,失败的原因在于深度回归损失对较大物体噪声的敏感性。为了弥合这一差距,我们全面调查了回归损失和Dice损失,分析了它们在不同误差水平和物体大小下的鲁棒性。我们从数学上证明,在简化的情况下,Dice损失相比回归损失具有更好的抗噪性和模型收敛性,特别是在处理大型物体时。基于我们的理论见解,我们提出了SeaBird(鸟瞰视角分割)作为向大型物体泛化迈出的第一步。SeaBird有效地将前景物体的BEV(鸟瞰视角)分割集成到3D检测中,并使用Dice损失训练分割头。SeaBird在KITTI-360排行榜上取得了最先进(SoTA)的结果,并且在nuScenes排行榜上显著提升了现有检测器的性能,尤其是在处理大型物体方面。代码和模型可在https://github.com/abhi1kumar/SeaBird 获取。
代码仓库
abhi1kumar/seabird
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-from-monocular-images-on-7 | SeaBird + Image2Maps | AP25: 35.04 AP50: 3.14 |
| 3d-object-detection-from-monocular-images-on-7 | SeaBird + PanopticBEV | AP25: 37.12 AP50: 4.64 |
| 3d-object-detection-on-nuscenes-camera-only | SeaBird | Future Frame: false NDS: 59.7 |