4 个月前

基于网络监督的概念扩展以提升通用视觉模型的性能

基于网络监督的概念扩展以提升通用视觉模型的性能

摘要

通用视觉(General Purpose Vision, GPV)系统是指设计用于解决广泛视觉任务而无需进行架构更改的模型。目前,GPV 主要通过大规模全监督数据集来学习技能和概念。然而,通过获取数据以学习每个技能下的数千个概念迅速变得不可行。本研究提出了一种有效且成本低廉的替代方案:从监督数据集中学习技能,从网络图像搜索中学习概念,并利用 GPV 的一个关键特性:能够在不同技能之间转移视觉知识的能力。我们使用了一个包含 100 多万张图像、涵盖 10,000 多个视觉概念的数据集,展示了两种现有 GPV 模型(GPV-1 和 VL-T5)在三个基准测试上的基于网络的监督概念扩展:5 个基于 COCO 的数据集(80 个主要概念)、新整理的 5 个基于 OpenImages 和 VisualGenome 数据库的数据集(约 500 个概念),以及一个来自网络的数据集(10,000 多个概念)。此外,我们还提出了一种新的架构——GPV-2,该架构支持多种任务,包括分类和定位等纯视觉任务、问答和图像描述等视觉+语言任务,以及更为专门的任务如人-物交互检测。GPV-2 在这些基准测试中受益于网络数据,并显著优于 GPV-1 和 VL-T5。我们的数据、代码和网络演示可访问 https://prior.allenai.org/projects/gpv2 获取。

基准测试

基准方法指标
object-categorization-on-gritGPV-2
Categorization (ablation): 54.7
Categorization (test): 55.1
object-localization-on-gritGPV-2
Localization (ablation): 53.6
Localization (test): 53.6
visual-question-answering-on-a-okvqaGPV-2
DA VQA Score: 40.7
MC Accuracy: 53.7
visual-question-answering-on-gritGPV-2
VQA (ablation): 63.5
VQA (test): 63.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于网络监督的概念扩展以提升通用视觉模型的性能 | 论文 | HyperAI超神经