8 个月前

统一多模态

多任务学习

Jiasen Lu†* Christopher Clark†* Rowan Zellers†○ Roozbeh Mottaghi†○ Aniruddha Kembhavi†○

摘要

我们提出了Unified-IO模型，该模型能够执行多种AI任务，涵盖经典计算机视觉任务（如姿态估计、目标检测、深度估计和图像生成）、视觉-语言任务（如区域描述和指代表达）以及自然语言处理任务（如问答和释义）。开发这样一个适用于多种任务的统一模型面临着独特的挑战，因为每个任务的输入和输出都是异构的，包括RGB图像、像素级地图、二值掩码、边界框和语言。我们通过将所有支持的输入和输出同质化为一系列离散词汇标记来实现这种统一。这种跨所有任务的通用表示方法使我们能够在超过90个视觉和语言领域的多样化数据集上联合训练一个基于Transformer的架构。Unified-IO是首个能够在GRIT基准测试中完成全部7项任务的模型，并在NYUv2-Depth、ImageNet、VQA2.0、OK-VQA、Swig、VizWizGround、BoolQ和SciTail等16个多样化的基准测试中取得了优异的结果，且无需针对特定任务进行微调。Unified-IO的代码和演示可在以下网址获取：https://unified-io.allenai.org。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

多任务学习

Jiasen Lu†* Christopher Clark†* Rowan Zellers†○ Roozbeh Mottaghi†○ Aniruddha Kembhavi†○

摘要

我们提出了Unified-IO模型，该模型能够执行多种AI任务，涵盖经典计算机视觉任务（如姿态估计、目标检测、深度估计和图像生成）、视觉-语言任务（如区域描述和指代表达）以及自然语言处理任务（如问答和释义）。开发这样一个适用于多种任务的统一模型面临着独特的挑战，因为每个任务的输入和输出都是异构的，包括RGB图像、像素级地图、二值掩码、边界框和语言。我们通过将所有支持的输入和输出同质化为一系列离散词汇标记来实现这种统一。这种跨所有任务的通用表示方法使我们能够在超过90个视觉和语言领域的多样化数据集上联合训练一个基于Transformer的架构。Unified-IO是首个能够在GRIT基准测试中完成全部7项任务的模型，并在NYUv2-Depth、ImageNet、VQA2.0、OK-VQA、Swig、VizWizGround、BoolQ和SciTail等16个多样化的基准测试中取得了优异的结果，且无需针对特定任务进行微调。Unified-IO的代码和演示可在以下网址获取：https://unified-io.allenai.org。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供