
摘要
目标检测通常需要传统的滑动窗口分类器或现代深度学习方法中的基于锚框的预测。然而,这两种方法都需要对边界框进行繁琐的配置。在本文中,我们提供了一种新的视角,将目标检测视为一种高层次语义特征检测任务。类似于边缘、角点、斑点等其他特征检测器,所提出的检测器在整个图像上扫描特征点,卷积运算天然适合这一过程。但是,与这些传统的低层次特征不同,所提出的检测器追求更高层次的抽象,即寻找存在对象的中心点,而现代深度模型已经具备了这种高层次语义抽象的能力。此外,类似于斑点检测,我们还预测中心点的尺度,这也是一个直接的卷积操作。因此,在本文中,行人和人脸检测被简化为通过卷积进行中心点和尺度预测的任务。这样,所提出的方法实现了无边界框设置。尽管结构简单,但在包括行人检测和人脸检测在内的多个具有挑战性的基准测试中表现出竞争力的准确性。此外,还进行了跨数据集评估,展示了该方法优越的泛化能力。代码和模型可从以下链接获取:https://github.com/liuwei16/CSP 和 https://github.com/hasanirtiza/Pedestron。
代码仓库
liuwei16/CSP
官方
tf
hasanirtiza/Pedestron
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| pedestrian-detection-on-caltech | CSP + CityPersons dataset | Reasonable Miss Rate: 3.8 |
| pedestrian-detection-on-caltech | CSP | Reasonable Miss Rate: 4.5 |
| pedestrian-detection-on-citypersons | CSP (with offset) + ResNet-50 | Bare MR^-2: 7.3 Heavy MR^-2: 49.3 Large MR^-2: 6.5 Medium MR^-2: 3.7 Partial MR^-2: 10.4 Reasonable MR^-2: 11.0 Small MR^-2: 16.0 Test Time: 0.33s/img |