
摘要
本文分析了在极端尺度变化下识别和检测物体的不同技术。通过使用不同配置的输入数据训练检测器,比较了特定尺度和尺度不变的设计方法。通过对ImageNet上小物体分类的不同网络架构进行性能评估,我们展示了卷积神经网络(CNNs)对尺度变化并不鲁棒。基于这一分析,我们提出在同一图像金字塔的相同尺度上训练和测试检测器。由于小物体和大物体分别在较小和较大尺度下难以识别,我们提出了一种称为图像金字塔尺度归一化(Scale Normalization for Image Pyramids, SNIP)的新颖训练方案,该方案根据图像的尺度选择性地反向传播不同大小物体实例的梯度。在COCO数据集上,我们的单模型性能达到了45.7%,而由3个网络组成的集成模型获得了48.3%的平均精度均值(mAP)。我们使用预训练的ImageNet-1000模型,并仅使用边界框监督进行训练。我们的提交赢得了COCO 2017挑战赛的最佳学生作品奖。代码将在\url{http://bit.ly/2yXVg4c}提供。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-coco | D-RFCN + SNIP (ResNet-101, multi-scale) | AP50: 65.5 AP75: 48.4 APL: 54.9 APM: 46.5 APS: 27.2 Hardware Burden: Operations per network pass: box mAP: 43.4 |
| object-detection-on-coco | D-RFCN + SNIP (DPN-98 with flip, multi-scale) | AP50: 67.3 AP75: 51.1 APL: 57.1 APM: 48.8 APS: 29.3 Hardware Burden: Operations per network pass: box mAP: 45.7 |