3 个月前

LaMI-DETR:基于语言模型指令的开放词汇检测

LaMI-DETR:基于语言模型指令的开放词汇检测

摘要

现有方法通过利用视觉-语言模型(VLMs)如CLIP所具备的强大学术开放词汇识别能力,提升了开放词汇目标检测的性能。然而,仍面临两大主要挑战:(1)概念表征不足,即CLIP文本空间中的类别名称缺乏充分的文本与视觉知识;(2)对基础类别存在过拟合倾向,在将VLM知识迁移至检测器的过程中,开放词汇知识偏向于基础类别。为应对上述问题,本文提出语言模型指令(Language Model Instruction, LaMI)策略,该策略通过挖掘视觉概念之间的关联关系,并将其应用于一种简洁而高效的DETR类检测器——LaMI-DETR中。LaMI利用GPT构建视觉概念,并借助T5模型分析类别间的视觉相似性,从而优化概念表征并有效避免对基础类别的过拟合。大量实验证明,在相同严格评估设置下,本方法无需依赖外部训练资源,即可在性能上显著优于现有方法。LaMI-DETR在OV-LVIS数据集上实现了43.4的罕见类别框平均精度(rare box AP),较此前最优方法提升7.8个点,展现出卓越的开放词汇检测能力。

代码仓库

eternaldolphin/lami-detr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-object-detection-on-lvis-v1-0LaMI-DETR
AP novel-LVIS base training: 43.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LaMI-DETR:基于语言模型指令的开放词汇检测 | 论文 | HyperAI超神经