4 个月前

OV-DINO:统一的开放词汇检测与语言感知选择性融合

OV-DINO:统一的开放词汇检测与语言感知选择性融合

摘要

开放词汇检测是一项具有挑战性的任务,因为它需要基于类别名称检测对象,包括那些在训练过程中未遇到的对象。现有的方法通过在多样化的大型数据集上进行预训练和伪标签生成,展示了强大的零样本检测能力。然而,这些方法面临两个主要挑战:(i) 如何有效消除伪标签生成中的数据噪声,以及 (ii) 如何高效利用语言感知能力进行区域级别的跨模态融合和对齐。为了解决这些问题,我们提出了一种新的统一开放词汇检测方法——OV-DINO,该方法在一个统一框架中通过语言感知选择性融合在多样化的大型数据集上进行了预训练。具体而言,我们引入了一个统一的数据集成(UniDI)管道,以实现端到端的训练,并通过将不同的数据源统一为检测中心的数据格式来消除伪标签生成中的噪声。此外,我们提出了一种语言感知选择性融合(LASF)模块,通过语言感知查询选择和融合过程增强跨模态对齐。我们在流行的开放词汇检测基准上评估了所提出的 OV-DINO 的性能,在零样本情况下,在 COCO 基准上达到了 50.6% 的平均精度(AP),在 LVIS 基准上达到了 40.1% 的平均精度(AP),展示了其强大的泛化能力。进一步地,在 COCO 上微调后的 OV-DINO 达到了 58.4% 的平均精度(AP),超过了具有相同骨干网络的许多现有方法。OV-DINO 的代码可在 https://github.com/wanghao9610/OV-DINO 获取。

代码仓库

wanghao9610/ov-dino
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-object-detection-on-lvis-v1-0OV-DINO-T (without LVIS data, swin tiny)
AP: 40.1
zero-shot-object-detection-on-lvis-v1-0-valOV-DINO-T (without LVIS data, swin tiny)
AP: 32.9
zero-shot-object-detection-on-mscocoOV-DINO-T (without COCO data)
AP: 50.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OV-DINO:统一的开放词汇检测与语言感知选择性融合 | 论文 | HyperAI超神经