MindererMatthias ; GritsenkoAlexey ; StoneAustin ; NeumannMaxim ; WeissenbornDirk ; DosovitskiyAlexey ; MahendranAravindh ; ArnabAnurag ; DehghaniMostafa ; ShenZhuoran ; WangXiao ; ZhaiXiaohua ; KipfThomas ; HoulsbyNeil

摘要
将简单的架构与大规模预训练相结合,已在图像分类领域取得了显著的改进。然而,在目标检测方面,特别是在长尾分布和开放词汇设置中,由于训练数据相对稀缺,预训练和扩展方法尚未得到充分的发展。本文提出了一种将图像-文本模型迁移到开放词汇目标检测的强大方案。我们使用了标准的视觉变换器(Vision Transformer)架构,并进行了最小限度的修改,采用了对比图像-文本预训练方法,并对端到端检测进行了微调。我们对这一方案的扩展属性进行了分析,结果显示增加图像级别的预训练和模型规模可以持续提升下游检测任务的性能。此外,我们提供了实现零样本文本条件和单样本图像条件目标检测所需的强大性能的适应策略和正则化方法。代码和模型已在GitHub上公开。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| described-object-detection-on-description | OWL-ViT-base | Intra-scenario ABS mAP: 8.8 Intra-scenario FULL mAP: 8.6 Intra-scenario PRES mAP: 8.5 |
| one-shot-object-detection-on-coco | OWL-ViT (R50+H/32) | AP 0.5: 41.8 |
| open-vocabulary-object-detection-on-lvis-v1-0 | OWL-ViT (CLIP-L/14) | AP novel-LVIS base training: 25.6 AP novel-Unrestricted open-vocabulary training: 31.2 |