3 个月前

利用视觉与语言模型挖掘未标注数据用于目标检测

利用视觉与语言模型挖掘未标注数据用于目标检测

摘要

构建鲁棒且通用的目标检测框架,需要扩展至更大的类别空间和更大规模的训练数据集。然而,在大规模下为数千个类别获取标注数据成本极高,难以实现。为此,我们提出一种新方法,利用近期视觉-语言模型中丰富的语义信息,对未标注图像中的物体进行定位与分类,从而有效生成用于目标检测的伪标签。该方法从一种通用且类别无关的区域提议机制出发,借助视觉-语言模型将图像中的每个区域分类为下游任务所需的任意物体类别。我们在两个具体任务中验证了所生成伪标签的有效性:开放词汇目标检测(open-vocabulary detection),即模型需泛化至未见物体类别;以及半监督目标检测,即利用额外的未标注图像提升模型性能。实验结果表明,该伪标签在两项任务中均表现出显著效果,优于现有竞争性基线方法,并在开放词汇目标检测任务上取得了新的最先进(state-of-the-art)性能。相关代码已开源,地址为:https://github.com/xiaofeng94/VL-PLM。

代码仓库

xiaofeng94/vl-plm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-object-detection-on-mscocoVL-PLM (RN50)
AP 0.5: 34.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用视觉与语言模型挖掘未标注数据用于目标检测 | 论文 | HyperAI超神经