
摘要
基于卷积神经网络(CNN)与传统手工特征(HOG+LUV)结合的行人检测方法已取得显著成功。通常情况下,HOG+LUV用于生成候选区域,然后由CNN对这些候选区域进行分类。尽管该方法取得了成功,但仍存在改进的空间。例如,CNN通过全连接层特征对候选区域进行分类,而忽略了提案得分和CNN内部层的特征。在本文中,我们提出了一种统一框架,称为多层通道特征(Multilayer Channel Features, MCF),以克服这一缺点。首先,MCF将HOG+LUV与CNN的每一层集成到一个多层图像通道中。在此基础上,学习一个多阶段级联AdaBoost模型。每个阶段的弱分类器从相应层的图像通道中学习而来。凭借更加丰富的特征,MCF在Caltech行人数据集上达到了最先进的水平(即10.40%的漏检率)。使用新的精确注释后,MCF的漏检率降低至7.98%。由于前几个阶段可以快速排除许多非行人的检测窗口,因此检测速度提高了1.43倍。通过在第一阶段后剔除得分较低且高度重叠的检测窗口,其速度进一步提高至4.07倍,性能损失可忽略不计。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| pedestrian-detection-on-caltech | MCF | Reasonable Miss Rate: 10.40 |