8 个月前

摘要

通用视觉（General Purpose Vision, GPV）系统是指设计用于解决广泛视觉任务而无需进行架构更改的模型。目前，GPV 主要通过大规模全监督数据集来学习技能和概念。然而，通过获取数据以学习每个技能下的数千个概念迅速变得不可行。本研究提出了一种有效且成本低廉的替代方案：从监督数据集中学习技能，从网络图像搜索中学习概念，并利用 GPV 的一个关键特性：能够在不同技能之间转移视觉知识的能力。我们使用了一个包含 100 多万张图像、涵盖 10,000 多个视觉概念的数据集，展示了两种现有 GPV 模型（GPV-1 和 VL-T5）在三个基准测试上的基于网络的监督概念扩展：5 个基于 COCO 的数据集（80 个主要概念）、新整理的 5 个基于 OpenImages 和 VisualGenome 数据库的数据集（约 500 个概念），以及一个来自网络的数据集（10,000 多个概念）。此外，我们还提出了一种新的架构——GPV-2，该架构支持多种任务，包括分类和定位等纯视觉任务、问答和图像描述等视觉+语言任务，以及更为专门的任务如人-物交互检测。GPV-2 在这些基准测试中受益于网络数据，并显著优于 GPV-1 和 VL-T5。我们的数据、代码和网络演示可访问 https://prior.allenai.org/projects/gpv2 获取。

源 PDF