
摘要
Grounding-DINO 是一种最先进的开放集检测模型,能够应对包括开放词汇检测(Open-Vocabulary Detection, OVD)、短语定位(Phrase Grounding, PG)和指代表达理解(Referring Expression Comprehension, REC)在内的多种视觉任务。其有效性使其在各种下游应用中被广泛采用为主流架构。然而,尽管该模型具有重要意义,但由于缺乏训练代码,原始的 Grounding-DINO 模型未能提供全面的公开技术细节。为了弥补这一不足,我们推出了 MM-Grounding-DINO,这是一个开源、全面且用户友好的基线模型,基于 MMDetection 工具箱构建。该模型采用了丰富的视觉数据集进行预训练,并使用多种检测和定位数据集进行微调。我们对每个报告的结果进行了详尽的分析,并提供了详细的复现设置。在提到的多个基准测试中的广泛实验表明,我们的 MM-Grounding-DINO-Tiny 模型优于 Grounding-DINO-Tiny 基线模型。我们将所有模型发布给研究社区。代码和训练好的模型已发布在 https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino。
代码仓库
cszzshi/SimD
pytorch
GitHub 中提及
open-mmlab/mmdetection
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| described-object-detection-on-description | MM-Grounding-DINO | Intra-scenario ABS mAP: 26.0 Intra-scenario FULL mAP: 22.9 Intra-scenario PRES mAP: 21.9 |