4 个月前

弥合对象和图像级表示之间的差距以实现开放词汇检测

弥合对象和图像级表示之间的差距以实现开放词汇检测

摘要

现有的开放词汇对象检测器通常通过利用不同形式的弱监督来扩大其词汇量,这有助于在推理时对新对象进行泛化。在开放词汇检测(OVD)中,两种常用的弱监督形式包括预训练的CLIP模型和图像级监督。我们注意到,这两种监督模式对于检测任务来说并不是最优对齐的:CLIP模型是基于图像-文本对进行训练的,缺乏对对象的精确定位;而图像级监督则使用了一些启发式方法,这些方法不能准确指定局部对象区域。在这项工作中,我们提出通过执行来自CLIP模型的语言嵌入的对象中心对齐来解决这一问题。此外,我们仅使用图像级监督并通过伪标签过程对对象进行视觉定位,该过程提供了高质量的对象建议,并有助于在训练过程中扩展词汇量。我们通过一种新颖的权重转移函数建立了上述两种对象对齐策略之间的桥梁,该函数聚合了它们的互补优势。本质上,所提出的模型旨在最小化OVD设置下对象和图像中心表示之间的差距。在COCO基准测试中,我们的方法在新类别上达到了36.6 AP50,比之前最佳性能提高了8.2个百分点。对于LVIS数据集,我们在罕见类别的mask AP上超过了最先进的ViLD模型5.0个百分点,在总体上也领先3.4个百分点。代码:https://github.com/hanoonaR/object-centric-ovd。

代码仓库

基准测试

基准方法指标
open-vocabulary-attribute-detection-on-ovadObject-Centric-OVD (ResNet50)
mean average precision: 14.6
open-vocabulary-object-detection-onObject-Centric-OVD
mask AP50: 42.9
open-vocabulary-object-detection-on-1Object-Centric-OVD
mask AP50: 22.3
open-vocabulary-object-detection-on-lvis-v1-0Object-Centric-OVD
AP novel-LVIS base training: 21.1
open-vocabulary-object-detection-on-mscocoObject-Centric-OVD
AP 0.5: 36.9
zero-shot-object-detection-on-mscocoObject-Centric-OVD
AP: 40.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
弥合对象和图像级表示之间的差距以实现开放词汇检测 | 论文 | HyperAI超神经