4 个月前

Unified-IO:一种统一的视觉、语言和多模态任务模型

Unified-IO:一种统一的视觉、语言和多模态任务模型

摘要

我们提出了Unified-IO模型,该模型能够执行多种AI任务,涵盖经典计算机视觉任务(如姿态估计、目标检测、深度估计和图像生成)、视觉-语言任务(如区域描述和指代表达)以及自然语言处理任务(如问答和释义)。开发这样一个适用于多种任务的统一模型面临着独特的挑战,因为每个任务的输入和输出都是异构的,包括RGB图像、像素级地图、二值掩码、边界框和语言。我们通过将所有支持的输入和输出同质化为一系列离散词汇标记来实现这种统一。这种跨所有任务的通用表示方法使我们能够在超过90个视觉和语言领域的多样化数据集上联合训练一个基于Transformer的架构。Unified-IO是首个能够在GRIT基准测试中完成全部7项任务的模型,并在NYUv2-Depth、ImageNet、VQA2.0、OK-VQA、Swig、VizWizGround、BoolQ和SciTail等16个多样化的基准测试中取得了优异的结果,且无需针对特定任务进行微调。Unified-IO的代码和演示可在以下网址获取:https://unified-io.allenai.org。

基准测试

基准方法指标
object-categorization-on-gritUnified-IOXL
Categorization (ablation): 61.7
Categorization (test): 60.8
object-localization-on-gritUnified-IOXL
Localization (ablation): 67.0
Localization (test): 67.1
visual-question-answering-on-gritUnified-IOXL
VQA (ablation): 74.5
VQA (test): 74.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Unified-IO:一种统一的视觉、语言和多模态任务模型 | 论文 | HyperAI超神经