
摘要
近期基于深度学习的多视角行人检测(MVD)方法在现有数据集上展示了令人鼓舞的结果。然而,当前的方法主要是在小规模、单一场景中使用有限数量的多视角帧和固定摄像机视图进行训练和评估的。因此,这些方法在更大、更复杂的场景中可能无法应对严重的遮挡和摄像机校准误差,从而不具备实际应用价值。本文旨在通过开发一种监督式的视角贡献权重方法来改进多视角行人检测,该方法能够在大规模场景下更好地融合多摄像机信息。此外,本文还采用了大型合成数据集以增强模型的泛化能力,并实现更实用的评估和比较。通过简单的域适应技术,模型在新测试场景中的性能得到了进一步提升。实验结果证明了我们方法在实现跨场景多视角行人检测方面的有效性。代码见:https://vcc.tech/research/2024/MVD。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multiview-detection-on-citystreet | SVCW | F1_score (2m): 76.0 MODA (2m): 55.0 MODP (2m): 70.0 Precision (2m): 81.4 Recall (2m): 71.2 |
| multiview-detection-on-cvcs | SVCW | F1_score (0.5m): / F1_score (1m): 68.4 MODA (0.5m): / MODA (1m): 46.2 MODP (1m): 78.4 Precision (1m): 81.2 Recall (1m): 59.1 |