
摘要
在拥挤场景中,通过融合多视角相机进行检测可以减轻遮挡的影响。在多视角系统中,面对由遮挡引起的模糊性时,我们需要回答两个关键问题。首先,我们如何聚合来自多个视角的线索?其次,我们如何聚合因遮挡而变得不可靠的二维和三维空间信息?为了解决这些问题,我们提出了一种新颖的多视角检测系统——MVDet。对于多视角聚合,现有的方法通常是在图像平面上合并锚框特征,这可能会由于锚框形状和大小不准确而限制性能。相比之下,我们采用无锚框的方法,通过将特征图投影到地面平面(鸟瞰视图)上来聚合多视角信息。为了进一步解决剩余的空间模糊性问题,我们在地面平面特征图上应用大核卷积,并从检测峰值推断位置。我们的整个模型是端到端可学习的,并在标准的Wildtrack数据集上实现了88.2%的MODA(Multiple Object Detection Accuracy),比现有最先进方法高出14.1%。此外,我们在新引入的合成数据集MultiviewX上对MVDet进行了详细分析,该数据集允许我们控制遮挡的程度。代码和MultiviewX数据集可在https://github.com/hou-yz/MVDet获取。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multiview-detection-on-citystreet | MVDet | F1_score (2m): 68.4 MODA (2m): 44.6 MODP (2m): 65.7 Precision (2m): 79.8 Recall (2m): 59.8 |
| multiview-detection-on-cvcs | MVDet | F1_score (1m): 60.9 MODA (1m): 36.6 MODP (1m): 71.0 Precision (1m): 79.4 Recall (1m): 49.4 |
| multiview-detection-on-multiviewx | MVDet | MODA: 93.6 MODP: 79.6 Recall: 86.7 |
| multiview-detection-on-wildtrack | MVDet | MODA: 88.2 MODP: 75.7 Recall: 93.6 |