8 个月前

多模态表征

多任务学习

Di Qi; Lin Su; Jia Song; Edward Cui; Taroon Bharti; Arun Sacheti

摘要

在本文中，我们介绍了一种新的视觉-语言预训练模型——ImageBERT——用于图像-文本联合嵌入。我们的模型基于Transformer架构，可以接受不同模态的输入并建模它们之间的关系。该模型同时在四个任务上进行预训练：掩码语言建模（Masked Language Modeling, MLM）、掩码对象分类（Masked Object Classification, MOC）、掩码区域特征回归（Masked Region Feature Regression, MRFR）和图像文本匹配（Image Text Matching, ITM）。为了进一步提高预训练质量，我们从网络中收集了一个大规模弱监督图像-文本（Large-scale weAk-supervised Image-Text, LAIT）数据集。我们首先在这个数据集上对模型进行预训练，然后在Conceptual Captions和SBU Captions数据集上进行第二阶段的预训练。实验结果表明，多阶段预训练策略优于单阶段预训练。此外，我们在图像检索和文本检索任务上对预训练的ImageBERT模型进行了微调和评估，并在MSCOCO和Flickr30k数据集上均取得了最新的最佳结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

多任务学习

Di Qi; Lin Su; Jia Song; Edward Cui; Taroon Bharti; Arun Sacheti

摘要

在本文中，我们介绍了一种新的视觉-语言预训练模型——ImageBERT——用于图像-文本联合嵌入。我们的模型基于Transformer架构，可以接受不同模态的输入并建模它们之间的关系。该模型同时在四个任务上进行预训练：掩码语言建模（Masked Language Modeling, MLM）、掩码对象分类（Masked Object Classification, MOC）、掩码区域特征回归（Masked Region Feature Regression, MRFR）和图像文本匹配（Image Text Matching, ITM）。为了进一步提高预训练质量，我们从网络中收集了一个大规模弱监督图像-文本（Large-scale weAk-supervised Image-Text, LAIT）数据集。我们首先在这个数据集上对模型进行预训练，然后在Conceptual Captions和SBU Captions数据集上进行第二阶段的预训练。实验结果表明，多阶段预训练策略优于单阶段预训练。此外，我们在图像检索和文本检索任务上对预训练的ImageBERT模型进行了微调和评估，并在MSCOCO和Flickr30k数据集上均取得了最新的最佳结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

ImageBERT：利用大规模弱监督图像-文本数据进行跨模态预训练 | 论文 | HyperAI超神经