Peize SunRufeng ZhangYi JiangTao KongChenfeng XuWei ZhanMasayoshi TomizukaLei LiZehuan YuanChanghu WangPing Luo

摘要
我们提出 Sparse R-CNN,一种用于图像目标检测的纯稀疏方法。现有的目标检测方法严重依赖于密集的目标候选框,例如在尺寸为 $H\times W$ 的图像特征图上预定义的 $k$ 个锚框(anchor boxes),形成数量高达数十万的候选区域。而在我们的方法中,仅提供一个固定数量的、可学习的稀疏目标提议(object proposals),总长度为 $N$,交由目标识别头完成分类与定位任务。通过将原本需手工设计的 $HWk$(可达数十万)个密集候选框替换为仅 $N$(例如 100 个)可学习的稀疏提议,Sparse R-CNN 完全避免了与候选框设计相关的所有工作,以及多对一的标签分配问题。更重要的是,最终的预测结果可直接输出,无需后续的非极大值抑制(non-maximum suppression, NMS)后处理步骤。在具有挑战性的 COCO 数据集上,Sparse R-CNN 在检测精度、运行速度和训练收敛性能方面均达到与主流检测基准相当的水平。例如,在标准的 $3\times$ 训练调度下,其 AP 达到 45.0,同时在使用 ResNet-50 FPN 模型时,推理速度可达 22 fps。我们希望本工作能够激发对目标检测器中“密集先验”范式的重新思考。代码已开源,地址为:https://github.com/PeizeSun/SparseR-CNN。
代码仓库
henbucuoshanghai/sparsercnn
pytorch
GitHub 中提及
open-mmlab/mmdetection
pytorch
PeizeSun/SparseR-CNN
官方
pytorch
GitHub 中提及
Booomshaker/SparseRCNNWSL
pytorch
GitHub 中提及
liangheming/sparse_rcnnv1
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 2d-object-detection-on-ceymo | Sparse R-CNN | mAP: 47.3 |
| 2d-object-detection-on-sardet-100k | Sparse R-CNN | box mAP: 38.1 |
| object-detection-on-coco-minival | Sparse R-CNN (ResNet-101, learnable proposals, random crop aug, FPN) | AP50: 64.6 AP75: 49.5 APL: 61.6 APM: 48.3 APS: 28.3 box AP: 45.6 |
| object-detection-on-coco-minival | Sparse R-CNN (ResNet-101, FPN) | AP50: 62.1 AP75: 47.2 APL: 59.7 APM: 46.3 APS: 26.1 box AP: 43.5 |
| object-detection-on-coco-minival | Sparse R-CNN (ResNet-50, FPN) | AP50: 61.2 AP75: 45.7 APL: 57.6 APM: 44.6 APS: 26.7 box AP: 42.3 |
| object-detection-on-coco-minival | Sparse R-CNN (ResNet-50, learnable proposals, random crop aug, FPN) | AP50: 63.4 AP75: 48.2 APL: 59.5 APM: 47.2 APS: 26.9 box AP: 44.5 |