
摘要
本文提出了一种新型基于查询(query-based)的人群检测框架。以往基于查询的检测器存在两个主要缺陷:其一,在密集场景中,单个目标往往会产生多个预测结果;其二,随着解码阶段深度的增加,模型性能趋于饱和。得益于一对一标签分配机制的特性,我们提出一种渐进式预测方法,有效缓解上述问题。具体而言,我们首先筛选出更可能产生真正阳性预测的查询,随后根据已确认的预测结果,对剩余的噪声查询进行精细化修正。实验结果表明,所提方法能显著提升基于查询检测器在密集人群场景下的性能表现。在具有挑战性的 CrowdHuman 数据集上,结合本方法的 Sparse RCNN 达到了 92.0% 的 $\text{AP}$、41.4\% 的 $\text{MR}^{-2}$ 和 83.2\% 的 $\text{JI}$,优于专为处理密集场景设计的基于边界框的方法 MIP \cite{chu2020detection}。此外,该方法对人群密度具有较强的鲁棒性,在中等和轻度拥挤的数据集(如 CityPersons \cite{zhang2017citypersons} 和 COCO \cite{lin2014microsoft})上同样实现了稳定且一致的性能提升。代码将公开发布于 https://github.com/megvii-model/Iter-E2EDET。
代码仓库
megvii-model/iter-e2edet
官方
pytorch
zyayoung/Iter-Deformable-DETR
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-crowdhuman | S-RCNN+Ours | AP: 92.5 MR^-2: 41.4 |
| object-detection-on-crowdhuman-full-body | Progressive DETR | AP: 94.1 mMR: 37.7 |