4 个月前

一个开放且全面的统一对象定位与检测管道

一个开放且全面的统一对象定位与检测管道

摘要

Grounding-DINO 是一种最先进的开放集检测模型,能够应对包括开放词汇检测(Open-Vocabulary Detection, OVD)、短语定位(Phrase Grounding, PG)和指代表达理解(Referring Expression Comprehension, REC)在内的多种视觉任务。其有效性使其在各种下游应用中被广泛采用为主流架构。然而,尽管该模型具有重要意义,但由于缺乏训练代码,原始的 Grounding-DINO 模型未能提供全面的公开技术细节。为了弥补这一不足,我们推出了 MM-Grounding-DINO,这是一个开源、全面且用户友好的基线模型,基于 MMDetection 工具箱构建。该模型采用了丰富的视觉数据集进行预训练,并使用多种检测和定位数据集进行微调。我们对每个报告的结果进行了详尽的分析,并提供了详细的复现设置。在提到的多个基准测试中的广泛实验表明,我们的 MM-Grounding-DINO-Tiny 模型优于 Grounding-DINO-Tiny 基线模型。我们将所有模型发布给研究社区。代码和训练好的模型已发布在 https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino。

代码仓库

cszzshi/SimD
pytorch
GitHub 中提及
open-mmlab/mmdetection
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
described-object-detection-on-descriptionMM-Grounding-DINO
Intra-scenario ABS mAP: 26.0
Intra-scenario FULL mAP: 22.9
Intra-scenario PRES mAP: 21.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一个开放且全面的统一对象定位与检测管道 | 论文 | HyperAI超神经