
摘要
鸟瞰图(BEV)表示方法使得自动驾驶中的多个任务,如道路布局估计和三维物体检测,能够进行稳健的学习。然而,当前用于统一道路布局估计和三维物体检测的方法很少处理训练数据集中的类别不平衡问题以及多类别学习,以减少所需网络的总数。为了解决这些问题,我们提出了一种基于变压器架构和CycleGAN学习框架的统一模型,用于道路布局估计和三维物体检测。该模型利用焦点损失(focal loss)和提出的双循环损失(dual cycle loss)来应对数据集类别不平衡导致的性能下降问题。此外,我们设置了广泛的学习场景,以研究在不同情况下多类别学习对道路布局估计的影响。为了验证所提模型及学习方案的有效性,我们进行了详尽的消融实验和对比实验。实验结果证明了我们模型的有效性;我们在道路布局估计和三维物体检测任务中均达到了最先进的性能。
代码仓库
AutoCompSysLab/DCTNet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-cross-view-road-scene-parsing | DCTNet | mAP: 58.89% mIoU: 39.44% |
| monocular-cross-view-road-scene-parsing-1 | DCTNet | mAP: 68.96% mIoU: 48.04% |
| monocular-cross-view-road-scene-parsing-road | DCTNet | mAP: 88.28% mIOU: 77.15% |
| monocular-cross-view-road-scene-parsing-road-1 | DCTNet | mAP: 86.56% mIoU: 65.86% |
| monocular-cross-view-road-scene-parsing-road-2 | DCTNet | mAP: 88.87% mIOU: 76.71% |