
摘要
提出了一种统一的深度神经网络——多尺度卷积神经网络(Multi-Scale CNN, MS-CNN),用于实现快速的多尺度目标检测。MS-CNN由一个候选区域生成子网络和一个检测子网络组成。在候选区域生成子网络中,检测在多个输出层上进行,使得感受野能够匹配不同尺度的目标。这些互补的、针对特定尺度的检测器被整合,从而构建出一个强大的多尺度目标检测器。整个统一网络通过优化多任务损失函数,实现端到端的训练。此外,还探索了采用反卷积进行特征上采样,作为输入上采样的替代方案,以降低内存占用和计算成本。在包含大量小目标的数据集(如KITTI和Caltech)上,该方法实现了达到每秒15帧(15 fps)的当前最优目标检测性能。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| face-detection-on-wider-face-hard | MSCNN | AP: 0.809 |
| pedestrian-detection-on-caltech | MS-CNN | Reasonable Miss Rate: 9.95 |