3 个月前

拥挤场景中的目标检测:一个提议,多重预测

拥挤场景中的目标检测:一个提议,多重预测

摘要

我们提出了一种简单而有效的基于提议(proposal-based)的物体检测器,旨在检测密集场景中高度重叠的物体实例。本方法的核心思想是:让每个提议(proposal)预测一组相关联的物体实例,而非传统基于提议的框架中仅预测单一实例。通过引入EMD损失(EMD Loss)和集合非极大值抑制(Set NMS)等新策略,我们的检测器能够有效应对高度重叠物体检测的挑战。在FPN-Res50基线模型上,该方法在具有挑战性的CrowdHuman数据集上实现了4.9%的AP提升,在CityPersons数据集上实现了1.0%的$\text{MR}^{-2}$性能改进,且无需任何额外的复杂技巧(bells and whistles)。此外,在相对稀疏的COCO等数据集上,该方法仍能取得可观的性能提升,表明所提出方法对场景拥挤程度具有良好的鲁棒性。代码与预训练模型将开源发布于:https://github.com/megvii-model/CrowdDetection。

代码仓库

Purkialo/CrowdDet
pytorch
GitHub 中提及
tusimple/simpledet
mxnet
GitHub 中提及
megvii-model/CrowdDetection
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-on-crowdhuman-full-bodyCrowdDet
AP: 90.7
mMR: 41.4
pedestrian-detection-on-tju-ped-campusCrowdDet
ALL (miss rate): 35.90
HO (miss rate): 66.38
R (miss rate): 25.73
R+HO (miss rate): 33.63
RS (miss rate): -
pedestrian-detection-on-tju-ped-trafficCrowdDet
ALL (miss rate): 36.94
HO (miss rate): 61.22
R (miss rate): 20.82
R+HO (miss rate): 25.28
RS (miss rate): -

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
拥挤场景中的目标检测:一个提议,多重预测 | 论文 | HyperAI超神经