3 个月前

面向开放词汇目标检测的物体感知知识蒸馏金字塔

面向开放词汇目标检测的物体感知知识蒸馏金字塔

摘要

开放词汇目标检测旨在使在固定类别集合上训练的目标检测器具备识别由任意文本查询描述的物体的能力。以往的方法通常采用知识蒸馏技术,从预训练的视觉-语言模型(Pretrained Vision-and-Language Models, PVLMs)中提取知识,并将其迁移至检测器中。然而,由于提案裁剪过程缺乏自适应性以及仅采用单层特征模仿机制,这些方法在知识提取过程中易造成信息损失,且知识迁移效率较低。为解决上述局限性,本文提出一种面向目标的蒸馏金字塔框架(Object-Aware Distillation Pyramid, OADP),包含两个核心组件:面向目标的知识提取模块(Object-Aware Knowledge Extraction, OAKE)与蒸馏金字塔机制(Distillation Pyramid, DP)。在从PVLM中提取目标知识时,OAKE模块通过自适应地变换目标提议(object proposals),并引入面向目标的掩码注意力机制,以获取更为精确且完整的物体知识;而DP机制则通过引入全局蒸馏与分块蒸馏策略,实现更全面的知识迁移,有效弥补了传统目标蒸馏中缺失的上下文关系信息。大量实验结果表明,所提方法相较于现有方法取得了显著性能提升。尤其在MS-COCO数据集上,本方法的OADP框架达到了35.6 mAP$^{\text{N}}{50}$的性能,超越当前最先进方法3.3 mAP$^{\text{N}}{50}$。代码已开源,地址为:https://github.com/LutingWang/OADP。

代码仓库

lutingwang/oadp
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-object-detection-on-lvis-v1-0OADP
AP novel-LVIS base training: 21.7
open-vocabulary-object-detection-on-mscocoOADP
AP 0.5: 30.0
open-vocabulary-object-detection-on-mscocoOADP (G-OVD)
AP 0.5: 35.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向开放词汇目标检测的物体感知知识蒸馏金字塔 | 论文 | HyperAI超神经