
摘要
尽管基于深度学习的单目行人检测方法已经取得了显著进展,但它们在面对严重遮挡时仍然表现脆弱。利用多视图信息融合是一种潜在的解决方案,但由于现有多视图数据集中缺乏标注的训练样本,这种方法的应用范围受到了限制,增加了过拟合的风险。为了解决这一问题,提出了一种数据增强方法,该方法通过在地面上随机生成平均尺寸与行人相当的3D圆柱形遮挡物,并将其投影到多个视图中,以减轻训练过程中的过拟合影响。此外,每个视图的特征图通过使用同胚变换(homographies)被投影到不同高度的多个平行平面上,这使得卷积神经网络(CNNs)能够充分利用每个行人在高度方向上的特征来推断其在地面平面的位置。所提出的3DROM方法在性能上相比现有的最先进的多视图行人检测深度学习方法有了显著提升。
代码仓库
xjtlu-cvlab/3drom
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multiview-detection-on-citystreet | 3DROM | F1_score (2m): 79.2 MODA (2m): 60.0 MODP (2m): 70.1 Precision (2m): 82.5 Recall (2m): 76.2 |
| multiview-detection-on-cvcs | 3DROM | F1_score (1m): 55.1 MODA (1m): 33.9 MODP (1m): 73.9 Precision (1m): 79.5 Recall (1m): 42.2 |
| multiview-detection-on-multiviewx | 3DROM | MODA: 90.0 MODP: 83.7 |
| multiview-detection-on-wildtrack | 3DROM | MODA: 93.5 MODP: 75.9 Recall: 96.2 |