
摘要
近年来,视频与语言(VidL)理解领域取得了显著进展。然而,大多数现有的VidL方法依赖于复杂且专门设计的模型架构,以及精巧的预训练策略,这使得这些框架的可复现性、分析与比较变得极为困难。因此,本文并未提出一种全新的VidL模型,而是开展了一项系统性的实证研究,旨在揭示VidL模型设计中最为关键的影响因素。我们重点考察了以下六个方面:(i)时空架构设计,(ii)多模态融合策略,(iii)预训练目标函数,(iv)预训练数据的选择,(v)预训练与微调协议,以及(vi)数据集与模型规模的扩展。实证研究结果表明,决定性能的关键设计因素主要包括:时间建模能力、视频到文本的多模态融合机制、掩码建模类预训练目标,以及图像与视频的联合训练策略。基于上述实证发现,我们提出了一套逐步递进的预训练方法,命名为VindLU,用于高效实现VidL模型的预训练。使用该方法训练的最终模型,在多个VidL任务上取得了与当前最先进水平相当甚至更优的性能,且无需依赖外部CLIP模型进行预训练。具体而言,在文本到视频检索任务中,我们的方法在DiDeMo数据集上达到61.2%的准确率,在ActivityNet数据集上达到55.0%,分别优于当前最先进水平7.8%和6.1%。此外,我们的模型在ActivityNet-QA、MSRVTT-QA、MSRVTT-MC和TVQA等多个视频问答任务上也取得了当前最优的性能。相关代码与预训练模型已公开发布于:https://github.com/klauscc/VindLU。
代码仓库
klauscc/vindlu
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-activitynet-qa | VindLU | Accuracy: 44.7 |
| video-question-answering-on-msrvtt-mc | VindLU | Accuracy: 95.5 |
| video-question-answering-on-msrvtt-qa | VindLU | Accuracy: 44.6 |
| video-question-answering-on-tvqa | VindLU | Accuracy: 79.0 |
| video-retrieval-on-activitynet | VindLU | text-to-video R@1: 55.0 text-to-video R@10: 89.7 text-to-video R@5: 81.4 |
| video-retrieval-on-condensed-movies | VINDLU | text-to-video R@1: 18.4 text-to-video R@10: 44.3 text-to-video R@5: 36.4 |
| video-retrieval-on-didemo | VindLU | text-to-video R@1: 61.2 text-to-video R@10: 91.0 text-to-video R@5: 85.8 |
| video-retrieval-on-msr-vtt-1ka | VindLU | text-to-video R@1: 46.5 text-to-video R@10: 80.4 text-to-video R@5: 71.5 |
| video-retrieval-on-queryd | VINDLU | text-to-video R@1: 67.8 text-to-video R@10: 81.8 text-to-video R@5: 86.3 |
| video-retrieval-on-ssv2-label-retrieval | VindLU | text-to-video R@1: 53.1 text-to-video R@5: 81.8 |
| video-retrieval-on-ssv2-template-retrieval | VindLU | text-to-video R@1: 83.3 text-to-video R@10: 100 text-to-video R@5: 100 |