4 个月前

局部视觉-语言匹配在开放词汇对象检测中的应用

局部视觉-语言匹配在开放词汇对象检测中的应用

摘要

在这项工作中,我们提出了一种基于图像-标题对的开放词汇对象检测方法,该方法能够在已知类别的基础上学习检测新的对象类别。这是一种两阶段的训练方法,首先使用位置引导的图像-标题匹配技术以弱监督的方式学习新类别和已知类别的类别标签,然后利用已知类别的注释专门化模型以完成对象检测任务。我们发现,对于检测新对象而言,简单的语言模型比大型上下文语言模型更为适用。此外,我们引入了一种一致性正则化技术来更好地利用图像-标题对的信息。我们的方法在数据效率方面优于现有的开放词汇检测方法。源代码可在 https://github.com/lmb-freiburg/locov 获取。

代码仓库

lmb-freiburg/locov
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-attribute-detection-on-ovadLocOv (ResNet50)
mean average precision: 14.9
open-vocabulary-object-detection-on-mscocoLocOv (RN50-C4)
AP 0.5: 28.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
局部视觉-语言匹配在开放词汇对象检测中的应用 | 论文 | HyperAI超神经