4 个月前

基于视觉变换器的简单开放词汇对象检测

基于视觉变换器的简单开放词汇对象检测

摘要

将简单的架构与大规模预训练相结合,已在图像分类领域取得了显著的改进。然而,在目标检测方面,特别是在长尾分布和开放词汇设置中,由于训练数据相对稀缺,预训练和扩展方法尚未得到充分的发展。本文提出了一种将图像-文本模型迁移到开放词汇目标检测的强大方案。我们使用了标准的视觉变换器(Vision Transformer)架构,并进行了最小限度的修改,采用了对比图像-文本预训练方法,并对端到端检测进行了微调。我们对这一方案的扩展属性进行了分析,结果显示增加图像级别的预训练和模型规模可以持续提升下游检测任务的性能。此外,我们提供了实现零样本文本条件和单样本图像条件目标检测所需的强大性能的适应策略和正则化方法。代码和模型已在GitHub上公开。

基准测试

基准方法指标
described-object-detection-on-descriptionOWL-ViT-base
Intra-scenario ABS mAP: 8.8
Intra-scenario FULL mAP: 8.6
Intra-scenario PRES mAP: 8.5
one-shot-object-detection-on-cocoOWL-ViT (R50+H/32)
AP 0.5: 41.8
open-vocabulary-object-detection-on-lvis-v1-0OWL-ViT (CLIP-L/14)
AP novel-LVIS base training: 25.6
AP novel-Unrestricted open-vocabulary training: 31.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于视觉变换器的简单开放词汇对象检测 | 论文 | HyperAI超神经