
摘要
本文提出了一种名为Grid R-CNN的新颖目标检测框架,该框架采用了网格引导的定位机制以实现精确的目标检测。与传统的基于回归的方法不同,Grid R-CNN显式地捕捉空间信息,并充分利用全卷积架构的位置敏感特性。为了减少特定点预测不准确的影响,我们设计了一种多点监督方案,以便编码更多的线索,而不仅仅是依赖两个独立的点。为了充分利用网格中各点之间的相关性,我们提出了一种两阶段的信息融合策略,将相邻网格点的特征图进行融合。网格引导的定位方法易于扩展到不同的先进检测框架中。实验结果表明,在COCO基准测试中,与采用Res50主干网络和FPN架构的Faster R-CNN相比,Grid R-CNN在IoU=0.8时实现了4.1%的平均精度(AP)提升,在IoU=0.9时实现了10.0%的平均精度(AP)提升。
代码仓库
STVIR/Grid-R-CNN
pytorch
GitHub 中提及
open-mmlab/mmdetection
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 2d-object-detection-on-sardet-100k | Grid RCNN | box mAP: 48.8 |
| object-detection-on-coco | Grid R-CNN (ResNeXt-101-FPN) | AP50: 63.0 AP75: 46.6 APL: 55.2 APM: 46.5 APS: 25.1 Hardware Burden: Operations per network pass: box mAP: 43.2 |
| object-detection-on-coco-minival | Grid R-CNN (ResNet-50-FPN) | AP50: 58.3 AP75: 42.4 APL: 51.5 APM: 43.8 APS: 22.6 box AP: 39.6 |
| object-detection-on-coco-minival | Grid R-CNN (ResNet-101-FPN) | AP50: 60.3 AP75: 44.4 APL: 54.1 APM: 45.8 APS: 23.4 box AP: 41.3 |