
摘要
多视角检测通过整合多个摄像头的视图来处理遮挡问题,其核心问题是多视角聚合。给定从多个视图投影到同一地面平面的特征图,现有最先进的方法通过卷积来解决这一问题,而卷积在不同物体位置上应用相同的计算。然而,这种平移不变的行为可能并不是最佳选择,因为物体特征会根据其位置和摄像头的不同经历各种投影变形。本文中,我们提出了一种新的多视角检测器——MVDeTr,该检测器采用了一种新引入的阴影变换器来聚合多视角信息。与卷积不同,阴影变换器在不同的位置和摄像头下以不同的方式关注,从而应对各种类似阴影的变形。我们提出了一种有效的训练方案,其中包括一种新的视图一致性数据增强方法,该方法在保持多视角一致性的同时应用随机增强。在两个多视角检测基准测试中,我们的系统报告了最新的最高精度。代码可在 https://github.com/hou-yz/MVDeTr 获取。
代码仓库
hou-yz/mvdetr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multiview-detection-on-citystreet | MVDeTr | F1_score (2m): 75.2 MODA (2m): 58.3 MODP (2m): 74.1 Precision (2m): 92.8 Recall (2m): 63.2 |
| multiview-detection-on-cvcs | MVDeTr | F1_score (1m): 61.0 MODA (1m): 39.8 MODP (1m): 84.1 Precision (1m): 95.3 Recall (1m): 44.9 |
| multiview-detection-on-multiviewx | MVDeTr | MODA: 93.7 MODP: 91.3 Recall: 94.2 |
| multiview-detection-on-wildtrack | MVDeTr | MODA: 91.5 MODP: 82.1 Recall: 94.0 |