7 个月前

多模态表征

Jiasen Lu; Dhruv Batra; Devi Parikh; Stefan Lee

摘要

我们介绍了ViLBERT（Vision-and-Language BERT的简称），这是一种用于学习图像内容和自然语言任务无关的联合表示的模型。我们将流行的BERT架构扩展为多模态双流模型，分别处理视觉和文本输入，并通过共注意 Transformer 层进行交互。我们在大规模自动收集的概念字幕数据集上通过两个代理任务对模型进行了预训练，然后仅在基础架构上进行少量修改，将其迁移到多个已建立的视觉与语言任务中——包括视觉问答、视觉常识推理、指代表达和基于字幕的图像检索。我们观察到，与现有的任务特定模型相比，在这些任务上取得了显著的改进——在所有四个任务中均达到了最先进的水平。我们的工作代表了从仅作为任务训练的一部分来学习视觉与语言之间的对应关系，向将视觉对应关系视为可预训练和可迁移的能力这一转变。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

Jiasen Lu; Dhruv Batra; Devi Parikh; Stefan Lee

摘要

我们介绍了ViLBERT（Vision-and-Language BERT的简称），这是一种用于学习图像内容和自然语言任务无关的联合表示的模型。我们将流行的BERT架构扩展为多模态双流模型，分别处理视觉和文本输入，并通过共注意 Transformer 层进行交互。我们在大规模自动收集的概念字幕数据集上通过两个代理任务对模型进行了预训练，然后仅在基础架构上进行少量修改，将其迁移到多个已建立的视觉与语言任务中——包括视觉问答、视觉常识推理、指代表达和基于字幕的图像检索。我们观察到，与现有的任务特定模型相比，在这些任务上取得了显著的改进——在所有四个任务中均达到了最先进的水平。我们的工作代表了从仅作为任务训练的一部分来学习视觉与语言之间的对应关系，向将视觉对应关系视为可预训练和可迁移的能力这一转变。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

ViLBERT：为视觉-语言任务预训练任务无关的视听表征 | 论文 | HyperAI超神经