3 个月前

基于大规模视频转录的高分辨率视频-语言表征进展

基于大规模视频转录的高分辨率视频-语言表征进展

摘要

我们研究视频与语言(VL)联合预训练,以促进跨模态学习,并为众多下游VL任务带来收益。现有方法要么提取低质量的视频特征,要么仅学习有限的文本嵌入,而忽视了高分辨率视频与多样化语义在提升跨模态学习能力方面的显著潜力。本文提出一种新型的高分辨率与多样化视频-语言预训练模型(High-resolution and Diversified VIdeo-LAnguage pre-training model, HD-VILA),适用于多种视觉任务。具体而言,我们构建了一个具有两个显著特性的大规模数据集:1)首个高分辨率数据集,包含371.5万小时的720p视频;2)覆盖15个主流YouTube类别的最多样化数据集。为支持VL预训练,我们通过一种混合Transformer架构联合优化HD-VILA模型,该架构能够学习丰富的时空特征;同时引入多模态Transformer,强制学习到的视频特征与多样化文本之间进行有效交互。所提出的预训练模型在10项VL理解任务以及2项新型文本到视觉生成任务中均取得了新的最先进性能。例如,在零样本MSR-VTT文本到视频检索任务中,我们的方法相比现有最优模型在R@1指标上实现了40.4%的相对提升;在高分辨率数据集LSMDC上,相对提升达55.4%。此外,所学习的VL嵌入在文本到视觉编辑与超分辨率任务中,也能生成视觉上令人愉悦且语义相关性强的结果。

代码仓库

microsoft/xpretrain
官方
pytorch

基准测试

基准方法指标
video-retrieval-on-activitynetHD-VILA
text-to-video Median Rank: 4
text-to-video R@1: 28.5
text-to-video R@5: 57.4
text-to-video R@50: 94
video-retrieval-on-didemoHD-VILA
text-to-video Median Rank: 4
text-to-video R@1: 28.8
text-to-video R@10: 69.1
text-to-video R@5: 57.4
video-retrieval-on-lsmdcHD-VILA
text-to-video Median Rank: 15
text-to-video R@1: 17.4
text-to-video R@10: 44.1
text-to-video R@5: 34.1
video-retrieval-on-msr-vttHD-VILA
text-to-video MedianR: 3
text-to-video R@1: 35.6
text-to-video R@10: 78
text-to-video R@5: 65.3
zero-shot-video-retrieval-on-msr-vttHD-VILA
text-to-video Median Rank: 15
text-to-video R@1: 14.6
text-to-video R@10: 44.1
text-to-video R@5: 34.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于大规模视频转录的高分辨率视频-语言表征进展 | 论文 | HyperAI超神经