4 个月前

基于骨干网络融合的粗到细视觉-语言预训练

Dou Zi-Yi ; Kamath Aishwarya ; Gan Zhe ; Zhang Pengchuan ; Wang Jianfeng ; Li Linjie ; Liu Zicheng ; Liu Ce ; LeCun Yann ; Peng Nanyun ; Gao Jianfeng ; Wang Lijuan

摘要

视觉-语言（VL）预训练近期受到了广泛关注。然而，大多数现有的端到端预训练方法要么仅针对图像-文本检索、视觉问答（VQA）和图像描述等测试图像高层次理解的任务，要么仅针对短语定位和目标检测等需要区域级理解的任务。我们提出了FIBER（基于骨干网络融合的变压器模型 Fusion-In-the-Backbone-based transformER），这是一种新的VL模型架构，能够无缝处理这两类任务。FIBER不是在单模态骨干网络之后添加专门的融合变压器层，而是通过在图像和文本骨干网络中插入交叉注意力机制，将多模态融合深入到模型内部，从而在内存和性能方面带来提升。此外，与以往仅在图像-文本数据上进行预训练或在带有框级注释的细粒度数据上进行预训练的工作不同，我们提出了一种两阶段预训练策略，能够高效利用这两类数据：(i) 基于图像-文本数据的粗粒度预训练；随后进行 (ii) 基于图像-文本-框数据的细粒度预训练。我们在广泛的VL任务上进行了全面实验，包括从VQA、图像描述和检索到短语定位、指代表达理解及目标检测。通过深度多模态融合结合两阶段预训练，FIBER在所有任务中均表现出优于强大基线模型的一致性能提升，且通常使用的数据量远少于其他方法。代码已发布在 https://github.com/microsoft/FIBER。

代码仓库

microsoft/fiber

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
described-object-detection-on-description	FIBER-B	Intra-scenario ABS mAP: 26.0 Intra-scenario FULL mAP: 22.7 Intra-scenario PRES mAP: 21.5
object-detection-on-coco-o	FIBER-B (Swin-B)	Average mAP: 33.7 Effective Robustness: 11.43
phrase-grounding-on-flickr30k-entities-dev	Fiber-B	R@1: 87.1 R@10: 97.4 R@5: 96.1
phrase-grounding-on-flickr30k-entities-test	FIBER-B	R@1: 87.4 R@10: 97.6 R@5: 96.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供