4 个月前

OvarNet:面向开放词汇的对象属性识别

OvarNet:面向开放词汇的对象属性识别

摘要

在本文中,我们研究了在图像中同时检测对象并推断其视觉属性的问题,即使是在训练阶段没有提供手动注释的情况下,也能够实现这一目标,类似于开放词汇场景。为了达到这一目标,我们做出了以下贡献:(i) 我们从一个简单的两阶段方法开始,用于开放词汇对象检测和属性分类,该方法称为 CLIP-Attr。首先通过离线的区域提议网络(RPN)生成候选对象,然后对这些对象进行语义类别和属性分类;(ii) 我们整合所有可用的数据集,并采用联邦学习策略微调 CLIP 模型,使视觉表示与属性对齐。此外,我们还探讨了利用自由获取的在线图像-标题对在弱监督学习下提高模型效果的可能性;(iii) 为了追求效率,我们通过知识蒸馏训练了一个端到端的 Faster-RCNN 类型模型,该模型可以进行类别无关的对象提议,并使用由文本编码器生成的分类器对语义类别和属性进行分类;最后,(iv) 我们在 VAW、MS-COCO、LSA 和 OVAD 数据集上进行了广泛的实验,并展示了语义类别和属性识别对于视觉场景理解具有互补性,即联合训练对象检测和属性预测显著优于将这两个任务独立处理的方法,证明了该模型对新属性和类别的强大泛化能力。

代码仓库

KyanChen/OvarNet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-attribute-detection-on-ovadOvarNet (ViT-B16)
mean average precision: 27.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OvarNet:面向开放词汇的对象属性识别 | 论文 | HyperAI超神经