
摘要
在本文中,我们介绍了一种开放集目标检测器,称为Grounding DINO,通过将基于Transformer的检测器DINO与有监督预训练相结合,该检测器能够根据人类输入(如类别名称或指代表达)检测任意对象。开放集目标检测的关键解决方案是在封闭集检测器中引入语言以实现开放集概念的泛化。为了有效融合语言和视觉模态,我们在概念上将封闭集检测器分为三个阶段,并提出了一种紧密融合方案,包括特征增强器、语言引导查询选择以及跨模态解码器用于跨模态融合。尽管以往的研究主要在新颖类别上评估开放集目标检测,我们还建议对具有属性指定的对象进行指代表达理解的评估。Grounding DINO在这三种设置下均表现出色,包括在COCO、LVIS、ODinW和RefCOCO/+/g基准上的测试。Grounding DINO在COCO检测零样本迁移基准上达到了52.5的平均精度(AP),即在没有任何来自COCO的数据的情况下进行训练。它在ODinW零样本基准上创下了新的记录,平均精度为26.1 AP。代码将在\url{https://github.com/IDEA-Research/GroundingDINO}提供。注:文中提到的专业术语如“开放集目标检测”、“封闭集检测器”、“特征增强器”、“语言引导查询选择”、“跨模态解码器”等均为通用译法;“Grounding DINO”、“DINO”、“COCO”、“LVIS”、“ODinW”和“RefCOCO/+/g”等专有名词保留了原文形式。
代码仓库
idea-research/groundingdino
官方
pytorch
GitHub 中提及
longzw1997/Open-GroundingDino
pytorch
GitHub 中提及
IDEA-Research/Grounded-Segment-Anything
pytorch
GitHub 中提及
idea-research/grounded-sam-2
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
anthonyhuo/sam-dam-for-compositional-reasoning
pytorch
GitHub 中提及
PaddlePaddle/PaddleMIX
paddle
idea-research/dino-x-api
GitHub 中提及
hzlbbfrog/generative-bim
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-coco | Grounding DINO | box mAP: 63.0 |
| object-detection-on-coco-minival | Grounding DINO | box AP: 63.0 |
| object-detection-on-odinw-full-shot-13-tasks | Grounding DINO | AP: 70.9 |
| zero-shot-object-detection-on-lvis-v1-0 | GroundingDINO-L | AP: 33.9 |
| zero-shot-object-detection-on-mscoco | Grounding DINO-L (without COCO data) | AP: 52.5 |
| zero-shot-object-detection-on-odinw | Grounding DINO | Average Score: 26.1 |
| zero-shot-segmentation-on-segmentation-in-the | Grounded-SAM | Mean AP: 46.0 |