4 个月前

SIA-OVD:用于弥合开放词汇检测中图像区域差距的形状不变适配器

SIA-OVD:用于弥合开放词汇检测中图像区域差距的形状不变适配器

摘要

开放词汇检测(OVD)旨在在没有实例级注释的情况下检测新对象,以实现成本更低的开放世界目标检测。现有的OVD方法主要依赖于视觉-语言预训练模型(VLM)如CLIP的强大开放词汇图像-文本对齐能力。然而,CLIP是在图像-文本对上进行训练的,缺乏对图像内部局部区域的感知能力,导致了图像和区域表示之间的差距。直接使用CLIP进行OVD会导致区域分类不准确。我们发现,这种图像-区域差距主要是由于在感兴趣区域(RoI)提取过程中区域特征图发生变形所致。为了缓解OVD中的不准确区域分类问题,我们提出了一种新的形状不变适配器,命名为SIA-OVD,以弥合OVD任务中的图像-区域差距。SIA-OVD学习了一组适用于不同形状区域的特征适配器,并设计了一种新的适配器分配机制来为每个区域选择最优的适配器。经过适应的区域表示可以更好地与CLIP学习到的文本表示对齐。广泛的实验表明,SIA-OVD通过解决由形状变形引起的图像和区域之间的差距,有效提高了区域分类的准确性。SIA-OVD在COCO-OVD基准测试中相对于代表性方法取得了显著改进。代码可在https://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024 获取。

代码仓库

基准测试

基准方法指标
open-vocabulary-object-detection-on-mscocoSIA-OVD (RN50)
AP 0.5: 35.5
open-vocabulary-object-detection-on-mscocoSIA-OVD (RN50x4)
AP 0.5: 41.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SIA-OVD:用于弥合开放词汇检测中图像区域差距的形状不变适配器 | 论文 | HyperAI超神经