
摘要
我们提出了一种简单而有效的基于提议(proposal-based)的物体检测器,旨在检测密集场景中高度重叠的物体实例。本方法的核心思想是:让每个提议(proposal)预测一组相关联的物体实例,而非传统基于提议的框架中仅预测单一实例。通过引入EMD损失(EMD Loss)和集合非极大值抑制(Set NMS)等新策略,我们的检测器能够有效应对高度重叠物体检测的挑战。在FPN-Res50基线模型上,该方法在具有挑战性的CrowdHuman数据集上实现了4.9%的AP提升,在CityPersons数据集上实现了1.0%的$\text{MR}^{-2}$性能改进,且无需任何额外的复杂技巧(bells and whistles)。此外,在相对稀疏的COCO等数据集上,该方法仍能取得可观的性能提升,表明所提出方法对场景拥挤程度具有良好的鲁棒性。代码与预训练模型将开源发布于:https://github.com/megvii-model/CrowdDetection。
代码仓库
Purkialo/CrowdDet
pytorch
GitHub 中提及
tusimple/simpledet
mxnet
GitHub 中提及
megvii-model/CrowdDetection
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-crowdhuman-full-body | CrowdDet | AP: 90.7 mMR: 41.4 |
| pedestrian-detection-on-tju-ped-campus | CrowdDet | ALL (miss rate): 35.90 HO (miss rate): 66.38 R (miss rate): 25.73 R+HO (miss rate): 33.63 RS (miss rate): - |
| pedestrian-detection-on-tju-ped-traffic | CrowdDet | ALL (miss rate): 36.94 HO (miss rate): 61.22 R (miss rate): 20.82 R+HO (miss rate): 25.28 RS (miss rate): - |