3 个月前

OmniVL:面向图像-语言与视频-语言任务的统一基础模型

OmniVL:面向图像-语言与视频-语言任务的统一基础模型

摘要

本文提出OmniVL,一种新型的基础模型,采用统一的架构同时支持图像-语言与视频-语言任务。该模型采用基于Transformer的统一视觉编码器处理图像与视频输入,从而实现图像-语言与视频-语言任务的联合预训练。我们首次证明,这种双向协同的预训练范式相较于传统的单向迁移(如利用图像-语言模型辅助视频-语言任务)能够同时提升图像与视频任务的性能。为此,我们提出一种解耦的联合预训练方法,有效将视觉-语言建模分解为空间与时间两个维度,显著提升了图像与视频任务的性能表现。此外,我们引入一种新颖的统一视觉-语言对比损失(UniVLC),能够联合利用图像-文本、视频-文本、图像标签(如图像分类)及视频标签(如视频动作识别)等多种数据,最大限度地融合有监督与弱监督预训练数据。OmniVL无需额外的任务特定适配器,即可同时支持仅视觉任务(如图像分类、视频动作识别)、跨模态对齐任务(如图像/视频-文本检索)以及多模态理解与生成任务(如图像/视频问答、图文生成)。我们在大量下游任务上对OmniVL进行了评估,结果表明,在模型规模与数据规模相近的情况下,其性能达到或超过当前最先进水平。

基准测试

基准方法指标
action-classification-on-kinetics-400OmniVL
Acc@1: 79.1
Acc@5: 94.5
action-recognition-in-videos-on-somethingOmniVL
Top-1 Accuracy: 62.5
Top-5 Accuracy: 86.2
cross-modal-retrieval-on-coco-2014OmniVL (14M)
Image-to-text R@1: 82.1
Image-to-text R@10: 98.1
Image-to-text R@5: 95.9
Text-to-image R@1: 64.8
Text-to-image R@10: 91.6
Text-to-image R@5: 86.1
cross-modal-retrieval-on-flickr30kOmniVL (14M)
Image-to-text R@1: 97.3
Image-to-text R@10: 100
Image-to-text R@5: 99.9
Text-to-image R@1: 87.9
Text-to-image R@10: 99.1
Text-to-image R@5: 97.8
image-captioning-on-nocaps-val-in-domainOmniVL
CIDEr: 104.6
Pre-train (#images): 14M
SPICE: 15
image-captioning-on-nocaps-val-near-domainOmniVL
CIDEr: 108.3
Pre-train (#images): 14M
SPICE: 14.9
image-captioning-on-nocaps-val-out-domainOmniVL
CIDEr: 106.3
Pretrain (#images): 14M
SPICE: 14.2
image-captioning-on-nocaps-val-overallOmniVL
CIDEr: 107.5
Pretrain (#images): 14M
SPICE: 14.7
video-captioning-on-youcook2OmniVL
BLEU-3: 12.87
BLEU-4: 8.72
CIDEr: 1.16
METEOR: 14.83
ROUGE-L: 36.09
video-retrieval-on-didemoOmniVL
text-to-video R@1: 52.4
text-to-video R@10: 85.4
text-to-video R@5: 79.5
video-retrieval-on-msr-vttOmniVL
text-to-video R@1: 47.8
text-to-video R@10: 83.8
text-to-video R@5: 74.2
visual-question-answering-on-msrvtt-qa-1OmniVL
Accuracy: 0.441
visual-question-answering-on-msvd-qa-1OmniVL
Accuracy: 0.510
zero-shot-video-retrieval-on-didemoOmniVL
text-to-video R@1: 33.3
text-to-video R@10: 68.5
text-to-video R@5: 58.7
zero-shot-video-retrieval-on-msr-vttOmniVL
text-to-video R@1: 34.6
text-to-video R@10: 66.6
text-to-video R@5: 58.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OmniVL:面向图像-语言与视频-语言任务的统一基础模型 | 论文 | HyperAI超神经