HyperAI

摘要

开放词汇检测（OVD）旨在在没有实例级注释的情况下检测新对象，以实现成本更低的开放世界目标检测。现有的OVD方法主要依赖于视觉-语言预训练模型（VLM）如CLIP的强大开放词汇图像-文本对齐能力。然而，CLIP是在图像-文本对上进行训练的，缺乏对图像内部局部区域的感知能力，导致了图像和区域表示之间的差距。直接使用CLIP进行OVD会导致区域分类不准确。我们发现，这种图像-区域差距主要是由于在感兴趣区域（RoI）提取过程中区域特征图发生变形所致。为了缓解OVD中的不准确区域分类问题，我们提出了一种新的形状不变适配器，命名为SIA-OVD，以弥合OVD任务中的图像-区域差距。SIA-OVD学习了一组适用于不同形状区域的特征适配器，并设计了一种新的适配器分配机制来为每个区域选择最优的适配器。经过适应的区域表示可以更好地与CLIP学习到的文本表示对齐。广泛的实验表明，SIA-OVD通过解决由形状变形引起的图像和区域之间的差距，有效提高了区域分类的准确性。SIA-OVD在COCO-OVD基准测试中相对于代表性方法取得了显著改进。代码可在https://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024 获取。

摘要

摘要

用 AI 构建 AI

HyperAI Newsletters

摘要

用 AI 构建 AI

HyperAI Newsletters

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SIA-OVD：用于弥合开放词汇检测中图像区域差距的形状不变适配器

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SIA-OVD：用于弥合开放词汇检测中图像区域差距的形状不变适配器

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SIA-OVD：用于弥合开放词汇检测中图像区域差距的形状不变适配器

摘要

用 AI 构建 AI

HyperAI Newsletters