3 个月前

UniVL:一种用于多模态理解与生成的统一视频与语言预训练模型

UniVL:一种用于多模态理解与生成的统一视频与语言预训练模型

摘要

随着自然语言处理(NLP)及图像-语言任务中预训练技术的近期成功,针对视频-语言任务的预训练方法逐渐兴起,旨在提升视频与文本相关下游任务的性能。然而,现有的多数多模态模型主要针对理解类任务进行预训练,导致在生成类任务上存在“预训练-微调”之间的差异。为此,本文提出UniVL:一种面向多模态理解与生成任务的统一视频与语言预训练模型。该模型由四个核心组件构成,包括两个单模态编码器、一个跨模态编码器,以及一个基于Transformer架构的解码器。为训练各组件,设计了五种预训练目标,分别为:视频-文本联合建模、条件掩码语言模型(CMLM)、条件掩码帧模型(CMFM)、视频-文本对齐,以及语言重构。此外,本文进一步提出了两种优化的预训练策略:分阶段预训练(StagedP)与增强视频表示(EnhancedV),以提升UniVL的训练效率与效果。模型在大规模教学视频数据集HowTo100M上进行预训练。实验结果表明,UniVL能够学习到强大的视频-文本联合表征,并在五个下游任务上均取得了当前最优(state-of-the-art)的性能表现。

代码仓库

wqliu657/UniVL
pytorch
GitHub 中提及
microsoft/UniVL
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-segmentation-on-coinUnivl
Frame accuracy: 70.0
video-captioning-on-youcook2UniVL
BLEU-3: 23.87
BLEU-4: 17.35
CIDEr: 1.81
METEOR: 22.35
ROUGE-L: 46.52
video-retrieval-on-msr-vttUniVL
text-to-video Median Rank: 6
text-to-video R@1: 21.2
text-to-video R@10: 63.1
text-to-video R@5: 49.6
video-retrieval-on-youcook2UniVL
text-to-video Median Rank: 4
text-to-video R@1: 28.9
text-to-video R@10: 70.0
text-to-video R@5: 57.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UniVL:一种用于多模态理解与生成的统一视频与语言预训练模型 | 论文 | HyperAI超神经