3 个月前

稀疏R-CNN:基于可学习提议的端到端目标检测

稀疏R-CNN:基于可学习提议的端到端目标检测

摘要

我们提出 Sparse R-CNN,一种用于图像目标检测的纯稀疏方法。现有的目标检测方法严重依赖于密集的目标候选框,例如在尺寸为 $H\times W$ 的图像特征图上预定义的 $k$ 个锚框(anchor boxes),形成数量高达数十万的候选区域。而在我们的方法中,仅提供一个固定数量的、可学习的稀疏目标提议(object proposals),总长度为 $N$,交由目标识别头完成分类与定位任务。通过将原本需手工设计的 $HWk$(可达数十万)个密集候选框替换为仅 $N$(例如 100 个)可学习的稀疏提议,Sparse R-CNN 完全避免了与候选框设计相关的所有工作,以及多对一的标签分配问题。更重要的是,最终的预测结果可直接输出,无需后续的非极大值抑制(non-maximum suppression, NMS)后处理步骤。在具有挑战性的 COCO 数据集上,Sparse R-CNN 在检测精度、运行速度和训练收敛性能方面均达到与主流检测基准相当的水平。例如,在标准的 $3\times$ 训练调度下,其 AP 达到 45.0,同时在使用 ResNet-50 FPN 模型时,推理速度可达 22 fps。我们希望本工作能够激发对目标检测器中“密集先验”范式的重新思考。代码已开源,地址为:https://github.com/PeizeSun/SparseR-CNN。

代码仓库

henbucuoshanghai/sparsercnn
pytorch
GitHub 中提及
PeizeSun/SparseR-CNN
官方
pytorch
GitHub 中提及
Booomshaker/SparseRCNNWSL
pytorch
GitHub 中提及
liangheming/sparse_rcnnv1
pytorch
GitHub 中提及

基准测试

基准方法指标
2d-object-detection-on-ceymoSparse R-CNN
mAP: 47.3
2d-object-detection-on-sardet-100kSparse R-CNN
box mAP: 38.1
object-detection-on-coco-minivalSparse R-CNN (ResNet-101, learnable proposals, random crop aug, FPN)
AP50: 64.6
AP75: 49.5
APL: 61.6
APM: 48.3
APS: 28.3
box AP: 45.6
object-detection-on-coco-minivalSparse R-CNN (ResNet-101, FPN)
AP50: 62.1
AP75: 47.2
APL: 59.7
APM: 46.3
APS: 26.1
box AP: 43.5
object-detection-on-coco-minivalSparse R-CNN (ResNet-50, FPN)
AP50: 61.2
AP75: 45.7
APL: 57.6
APM: 44.6
APS: 26.7
box AP: 42.3
object-detection-on-coco-minivalSparse R-CNN (ResNet-50, learnable proposals, random crop aug, FPN)
AP50: 63.4
AP75: 48.2
APL: 59.5
APM: 47.2
APS: 26.9
box AP: 44.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
稀疏R-CNN:基于可学习提议的端到端目标检测 | 论文 | HyperAI超神经