3 个月前

VindLU:高效视频与语言预训练的配方

VindLU:高效视频与语言预训练的配方

摘要

近年来,视频与语言(VidL)理解领域取得了显著进展。然而,大多数现有的VidL方法依赖于复杂且专门设计的模型架构,以及精巧的预训练策略,这使得这些框架的可复现性、分析与比较变得极为困难。因此,本文并未提出一种全新的VidL模型,而是开展了一项系统性的实证研究,旨在揭示VidL模型设计中最为关键的影响因素。我们重点考察了以下六个方面:(i)时空架构设计,(ii)多模态融合策略,(iii)预训练目标函数,(iv)预训练数据的选择,(v)预训练与微调协议,以及(vi)数据集与模型规模的扩展。实证研究结果表明,决定性能的关键设计因素主要包括:时间建模能力、视频到文本的多模态融合机制、掩码建模类预训练目标,以及图像与视频的联合训练策略。基于上述实证发现,我们提出了一套逐步递进的预训练方法,命名为VindLU,用于高效实现VidL模型的预训练。使用该方法训练的最终模型,在多个VidL任务上取得了与当前最先进水平相当甚至更优的性能,且无需依赖外部CLIP模型进行预训练。具体而言,在文本到视频检索任务中,我们的方法在DiDeMo数据集上达到61.2%的准确率,在ActivityNet数据集上达到55.0%,分别优于当前最先进水平7.8%和6.1%。此外,我们的模型在ActivityNet-QA、MSRVTT-QA、MSRVTT-MC和TVQA等多个视频问答任务上也取得了当前最优的性能。相关代码与预训练模型已公开发布于:https://github.com/klauscc/VindLU。

代码仓库

klauscc/vindlu
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-activitynet-qaVindLU
Accuracy: 44.7
video-question-answering-on-msrvtt-mcVindLU
Accuracy: 95.5
video-question-answering-on-msrvtt-qaVindLU
Accuracy: 44.6
video-question-answering-on-tvqaVindLU
Accuracy: 79.0
video-retrieval-on-activitynetVindLU
text-to-video R@1: 55.0
text-to-video R@10: 89.7
text-to-video R@5: 81.4
video-retrieval-on-condensed-moviesVINDLU
text-to-video R@1: 18.4
text-to-video R@10: 44.3
text-to-video R@5: 36.4
video-retrieval-on-didemoVindLU
text-to-video R@1: 61.2
text-to-video R@10: 91.0
text-to-video R@5: 85.8
video-retrieval-on-msr-vtt-1kaVindLU
text-to-video R@1: 46.5
text-to-video R@10: 80.4
text-to-video R@5: 71.5
video-retrieval-on-querydVINDLU
text-to-video R@1: 67.8
text-to-video R@10: 81.8
text-to-video R@5: 86.3
video-retrieval-on-ssv2-label-retrievalVindLU
text-to-video R@1: 53.1
text-to-video R@5: 81.8
video-retrieval-on-ssv2-template-retrievalVindLU
text-to-video R@1: 83.3
text-to-video R@10: 100
text-to-video R@5: 100

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VindLU:高效视频与语言预训练的配方 | 论文 | HyperAI超神经