
摘要
在这项工作中,我们研究了自然场景中的人行检测问题。直观上,不同空间尺度的行人实例可能表现出显著不同的特征。因此,实例尺度的较大差异会导致类别内特征的不期望的大方差,这可能会严重损害现代目标实例检测方法的性能。我们认为,通过分而治之(divide-and-conquer)的思想可以显著缓解这一问题。以人行检测为例,我们展示了如何利用这一思想开发出一种尺度感知的快速R-CNN(Scale-Aware Fast R-CNN, SAF R-CNN)框架。该模型引入了多个内置子网络,这些子网络分别检测具有不同尺度范围的行人。然后,通过一个定义在物体提议大小上的门函数自适应地结合所有子网络的输出,生成最终的检测结果,这些结果被证明对实例尺度的大方差具有鲁棒性。我们在几个具有挑战性的人行检测数据集上进行了广泛的评估,充分展示了所提出的SAF R-CNN的有效性。特别是在Caltech、INRIA和ETH数据集上,我们的方法达到了最先进的性能,并在KITTI数据集上获得了有竞争力的结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| pedestrian-detection-on-caltech | SA-FastRCNN | Reasonable Miss Rate: 9.68 |