4 个月前

图像作为一种外语:BEiT在所有视觉和视觉-语言任务中的预训练

图像作为一种外语:BEiT在所有视觉和视觉-语言任务中的预训练

摘要

语言、视觉和多模态预训练的大融合正在兴起。在本研究中,我们介绍了一种通用的多模态基础模型BEiT-3,该模型在视觉和视觉-语言任务上均实现了最先进的迁移性能。具体而言,我们在三个方面推进了这一大融合:骨干架构、预训练任务和模型扩展。我们引入了多路Transformer(Multiway Transformers)用于通用建模,其模块化架构既支持深度融合又支持特定模态的编码。基于共享的骨干架构,我们以统一的方式对图像(Imglish)、文本(英语)和图像-文本对(“平行句子”)进行了掩码“语言”建模。实验结果表明,BEiT-3在目标检测(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图像描述生成(COCO)以及跨模态检索(Flickr30K、COCO)等多个任务上均取得了最先进水平的表现。

代码仓库

lyan62/data-curation
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-on-coco-2014BEiT-3
Image-to-text R@1: 84.8
Image-to-text R@10: 98.3
Image-to-text R@5: 96.5
Text-to-image R@1: 67.2
Text-to-image R@10: 87.7
Text-to-image R@5: 92.8
cross-modal-retrieval-on-flickr30kBEiT-3
Image-to-text R@1: 98.0
Image-to-text R@10: 100.0
Image-to-text R@5: 100.0
Text-to-image R@1: 90.3
Text-to-image R@10: 99.5
Text-to-image R@5: 98.7
instance-segmentation-on-cocoBEiT-3
mask AP: 54.8
object-detection-on-cocoBEiT-3
box mAP: 63.7
semantic-segmentation-on-ade20kBEiT-3
Params (M): 1900
Validation mIoU: 62.8
semantic-segmentation-on-ade20k-valBEiT-3
mIoU: 62.8
visual-question-answering-on-vqa-v2-test-devBEiT-3
Accuracy: 84.19
visual-question-answering-on-vqa-v2-test-stdBEiT-3
overall: 84.03
visual-reasoning-on-nlvr2-devBEiT-3
Accuracy: 91.51
visual-reasoning-on-nlvr2-testBEiT-3
Accuracy: 92.58
zero-shot-cross-modal-retrieval-on-flickr30kBEiT-3
Image-to-text R@1: 94.9
Image-to-text R@10: 100.0
Image-to-text R@5: 99.9
Text-to-image R@1: 81.5
Text-to-image R@10: 97.8
Text-to-image R@5: 95.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供