6 个月前

摘要

近年来，视频与语言（VidL）理解领域取得了显著进展。然而，大多数现有的VidL方法依赖于复杂且专门设计的模型架构，以及精巧的预训练策略，这使得这些框架的可复现性、分析与比较变得极为困难。因此，本文并未提出一种全新的VidL模型，而是开展了一项系统性的实证研究，旨在揭示VidL模型设计中最为关键的影响因素。我们重点考察了以下六个方面：（i）时空架构设计，（ii）多模态融合策略，（iii）预训练目标函数，（iv）预训练数据的选择，（v）预训练与微调协议，以及（vi）数据集与模型规模的扩展。实证研究结果表明，决定性能的关键设计因素主要包括：时间建模能力、视频到文本的多模态融合机制、掩码建模类预训练目标，以及图像与视频的联合训练策略。基于上述实证发现，我们提出了一套逐步递进的预训练方法，命名为VindLU，用于高效实现VidL模型的预训练。使用该方法训练的最终模型，在多个VidL任务上取得了与当前最先进水平相当甚至更优的性能，且无需依赖外部CLIP模型进行预训练。具体而言，在文本到视频检索任务中，我们的方法在DiDeMo数据集上达到61.2%的准确率，在ActivityNet数据集上达到55.0%，分别优于当前最先进水平7.8%和6.1%。此外，我们的模型在ActivityNet-QA、MSRVTT-QA、MSRVTT-MC和TVQA等多个视频问答任务上也取得了当前最优的性能。相关代码与预训练模型已公开发布于：https://github.com/klauscc/VindLU。

源 PDF