
摘要
我们提出了Unified-IO模型,该模型能够执行多种AI任务,涵盖经典计算机视觉任务(如姿态估计、目标检测、深度估计和图像生成)、视觉-语言任务(如区域描述和指代表达)以及自然语言处理任务(如问答和释义)。开发这样一个适用于多种任务的统一模型面临着独特的挑战,因为每个任务的输入和输出都是异构的,包括RGB图像、像素级地图、二值掩码、边界框和语言。我们通过将所有支持的输入和输出同质化为一系列离散词汇标记来实现这种统一。这种跨所有任务的通用表示方法使我们能够在超过90个视觉和语言领域的多样化数据集上联合训练一个基于Transformer的架构。Unified-IO是首个能够在GRIT基准测试中完成全部7项任务的模型,并在NYUv2-Depth、ImageNet、VQA2.0、OK-VQA、Swig、VizWizGround、BoolQ和SciTail等16个多样化的基准测试中取得了优异的结果,且无需针对特定任务进行微调。Unified-IO的代码和演示可在以下网址获取:https://unified-io.allenai.org。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-categorization-on-grit | Unified-IOXL | Categorization (ablation): 61.7 Categorization (test): 60.8 |
| object-localization-on-grit | Unified-IOXL | Localization (ablation): 67.0 Localization (test): 67.1 |
| visual-question-answering-on-grit | Unified-IOXL | VQA (ablation): 74.5 VQA (test): 74.5 |