4 个月前

VLAB:通过特征适应和融合增强视频语言预训练

VLAB:通过特征适应和融合增强视频语言预训练

摘要

大规模图像-文本对比预训练模型(如CLIP)已被证明能够有效学习高质量的多模态表示。然而,基于这些强大特征来学习视频-文本表示以应对一般视频多模态任务的研究相对较少。为了实现这一目标,我们提出了一种新的视频-文本预训练方法,称为VLAB:通过特征适配和融合进行视频语言预训练(Video Language pre-training by feature Adapting and Blending),该方法将CLIP的表示迁移到视频预训练任务中,并开发了统一的视频多模态模型,适用于广泛的视频-文本任务。具体而言,VLAB基于两个关键策略:特征适配和特征融合。在特征适配方面,我们引入了一个新的视频适配器模块,以解决CLIP在建模时间信息方面的不足,并扩展模型的能力,使其能够涵盖对比任务和生成任务。在特征融合方面,我们提出了一种端到端的训练方法,通过利用图像和视频特征的互补性进一步提升模型性能。我们通过在具有竞争力的视频多模态任务上进行大量实验验证了VLAB的有效性和通用性,包括视频文本检索、视频字幕生成和视频问答。值得注意的是,VLAB在MSRVTT、MSVD和TGIF数据集上的视频问答任务中显著优于其他方法,并创下了新的记录,分别达到了49.6%、61.0%和79.0%的准确率。代码和模型将对外发布。

基准测试

基准方法指标
video-captioning-on-msr-vtt-1VLAB
BLEU-4: 54.6
CIDEr: 74.9
METEOR: 33.4
ROUGE-L: 68.3
video-captioning-on-msvd-1VLAB
BLEU-4: 79.3
CIDEr: 179.8
METEOR: 51.2
ROUGE-L: 87.9
video-retrieval-on-didemoVLAB
text-to-video R@1: 56.8
text-to-video R@10: 88.7
text-to-video R@5: 81.6
video-retrieval-on-msr-vttVLAB
text-to-video R@1: 55.1
text-to-video R@10: 87.6
text-to-video R@5: 78.8
video-retrieval-on-msvdVLAB
text-to-video R@1: 57.5
text-to-video R@10: 89.9
text-to-video R@5: 83.6
visual-question-answering-on-msrvtt-qa-1VLAB
Accuracy: 0.496
visual-question-answering-on-msvd-qa-1VLAB
Accuracy: 0.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VLAB:通过特征适应和融合增强视频语言预训练 | 论文 | HyperAI超神经