4 个月前

广义焦点损失V2:学习可靠的密集目标检测定位质量估计

广义焦点损失V2:学习可靠的密集目标检测定位质量估计

摘要

定位质量估计(LQE)在近期密集目标检测器的发展中至关重要且广受欢迎,因为它可以提供精确的排名分数,有助于非极大值抑制处理并提升检测性能。目前大多数现有方法通过与目标分类或边界框回归共享的标准卷积特征来预测LQE分数。本文中,我们探索了一种全新的视角来进行LQE——基于边界框的四个参数所学习到的分布。这些边界框分布受到GFLV1中“通用分布”概念的启发和引入,该概念能够很好地描述预测边界框的不确定性。这种特性使得边界框的分布统计与其实际定位质量高度相关。具体而言,具有尖锐峰值的边界框分布通常对应较高的定位质量,反之亦然。通过利用分布统计与实际定位质量之间的紧密关联,我们开发了一个相当轻量级的分布引导质量预测器(DGQP),以基于GFLV1实现可靠的LQE,从而生成了GFLV2。据我们所知,这是首次在目标检测中尝试使用高度相关的统计表示来促进LQE。大量实验验证了我们方法的有效性。特别是,GFLV2(ResNet-101)在COCO {\tt test-dev}数据集上实现了46.2 AP(每秒14.6帧),比之前的最先进ATSS基线(43.6 AP每秒14.6帧)绝对提升了2.6 AP,同时没有牺牲训练和推理过程中的效率。代码将在https://github.com/implus/GFocalV2发布。

代码仓库

implus/GFocalV2
官方
pytorch
GitHub 中提及
Edwardwaw/gfocalv2
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-on-cocoGFLV2 (ResNeXt-101, 32x4d, DCN)
AP50: 67.6
AP75: 53.5
APL: 61.4
APM: 52.4
APS: 29.7
Hardware Burden: 3G
Operations per network pass:
box mAP: 49
object-detection-on-cocoGFLV2 (ResNet-101-DCN)
AP50: 66.5
AP75: 52.8
APL: 60.7
APM: 51.9
APS: 28.8
Hardware Burden: 3G
Operations per network pass:
box mAP: 48.3
object-detection-on-cocoGFLV2 (Res2Net-101, DCN)
AP50: 69
AP75: 55.3
APL: 63.5
APM: 54.3
APS: 31.3
Hardware Burden:
Operations per network pass:
box mAP: 50.6
object-detection-on-cocoGFLV2 (ResNet-101)
AP50: 64.3
AP75: 50.5
APL: 57
APM: 49.9
APS: 27.8
Hardware Burden:
Operations per network pass:
box mAP: 46.2
object-detection-on-cocoGFLV2 (ResNet-50)
AP50: 62.3
AP75: 48.5
APL: 54.1
APM: 47.7
APS: 26.8
Hardware Burden:
Operations per network pass:
box mAP: 44.3
object-detection-on-cocoGFLV2 (Res2Net-101, DCN, multiscale)
AP50: 70.9
AP75: 59.2
APL: 65.6
APM: 56.1
APS: 35.7
Hardware Burden:
Operations per network pass:
box mAP: 53.3
object-detection-on-coco-oGFLv2 (R2-101-DCN)
Average mAP: 25.1
Effective Robustness: 2.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
广义焦点损失V2:学习可靠的密集目标检测定位质量估计 | 论文 | HyperAI超神经