4 个月前

ImageBERT:利用大规模弱监督图像-文本数据进行跨模态预训练

ImageBERT:利用大规模弱监督图像-文本数据进行跨模态预训练

摘要

在本文中,我们介绍了一种新的视觉-语言预训练模型——ImageBERT——用于图像-文本联合嵌入。我们的模型基于Transformer架构,可以接受不同模态的输入并建模它们之间的关系。该模型同时在四个任务上进行预训练:掩码语言建模(Masked Language Modeling, MLM)、掩码对象分类(Masked Object Classification, MOC)、掩码区域特征回归(Masked Region Feature Regression, MRFR)和图像文本匹配(Image Text Matching, ITM)。为了进一步提高预训练质量,我们从网络中收集了一个大规模弱监督图像-文本(Large-scale weAk-supervised Image-Text, LAIT)数据集。我们首先在这个数据集上对模型进行预训练,然后在Conceptual Captions和SBU Captions数据集上进行第二阶段的预训练。实验结果表明,多阶段预训练策略优于单阶段预训练。此外,我们在图像检索和文本检索任务上对预训练的ImageBERT模型进行了微调和评估,并在MSCOCO和Flickr30k数据集上均取得了最新的最佳结果。

基准测试

基准方法指标
zero-shot-cross-modal-retrieval-on-coco-2014ImageBERT
Image-to-text R@1: 44.0
Image-to-text R@10: 80.4
Image-to-text R@5: 71.2
Text-to-image R@1: 32.3
Text-to-image R@10: 70.2
Text-to-image R@5: 59.0
zero-shot-cross-modal-retrieval-on-flickr30kImageBERT
Image-to-text R@1: 70.7
Image-to-text R@10: 94.0
Image-to-text R@5: 90.2
Text-to-image R@1: 54.3
Text-to-image R@10: 87.5
Text-to-image R@5: 79.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ImageBERT:利用大规模弱监督图像-文本数据进行跨模态预训练 | 论文 | HyperAI超神经