6 个月前

摘要

本文针对开放词汇目标检测（Open-Vocabulary Object Detection, OVOD）这一具有挑战性的问题展开研究。在OVOD任务中，目标检测器需在测试图像中识别出训练过程中见过和未见过的类别，而训练阶段并不提供未见类别的标注样本。目前典型的OVOD方法是利用CLIP模型的联合文本-图像嵌入，将候选框（box proposals）分配给与其最接近的文本标签。然而，该方法存在一个关键问题：许多低质量候选框（如过度覆盖或覆盖不足的物体框）与高质量候选框在CLIP的相似度得分上相同，因为CLIP在训练过程中并未学习精确的物体位置信息。为解决这一问题，本文提出一种新方法——LP-OVOD，通过在从与新文本最相关的区域提案中检索得到的伪标签（pseudo labels）上训练一个Sigmoid线性分类器，自动剔除低质量候选框。在COCO数据集上的实验结果表明，所提方法显著优于现有最先进方法，在使用ResNet50作为主干网络、不依赖外部数据集且训练阶段无需知晓新类别的情况下，实现了 $\textbf{40.5}$ 的 $\text{AP}_{novel}$ 指标。相关代码将开源，地址为：https://github.com/VinAIResearch/LP-OVOD。