
摘要
掩码视觉建模(Masked Visual Modeling, MVM)近年来已被证明在视觉预训练中具有显著有效性。尽管在视频-语言(VidL)预训练中已对视频输入采用类似的重建目标(如掩码帧建模)进行了探索,但以往研究未能发现一种真正有效的MVM策略,以显著提升下游任务性能。在本工作中,我们系统性地考察了MVM在VidL学习场景中的潜力。具体而言,我们基于一个完全端到端的视频-语言Transformer模型——VIOLET(VIdeO-LanguagE Transformer),该模型能够将MVM训练所引入的监督信号反向传播至视频像素空间。我们共探索了八种不同的MVM重建目标,涵盖从低层像素值、方向梯度,到高层深度图、光流、离散视觉标记以及潜在视觉特征等多个层面。通过一系列全面的实验,我们深入分析了影响MVM训练有效性的关键因素,进而提出了性能增强的模型VIOLETv2。实验结果表明,使用MVM目标预训练的VIOLETv2在13个VidL基准任务上均取得显著提升,涵盖视频问答、视频字幕生成以及文本到视频检索等多种任务。
代码仓库
tsujuifu/pytorch_empirical-mvm
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-captioning-on-msr-vtt-1 | VIOLETv2 | CIDEr: 58 |
| video-captioning-on-msvd-1 | VIOLETv2 | CIDEr: 139.2 |
| video-question-answering-on-lsmdc-mc | VIOLETv2 | Accuracy: 84.4 |
| video-question-answering-on-msrvtt-mc | VIOLETv2 | Accuracy: 97.6 |
| video-question-answering-on-msrvtt-qa | VIOLETv2 | Accuracy: 44.5 |
| video-retrieval-on-didemo | VIOLETv2 | text-to-video R@1: 47.9 text-to-video R@10: 84.1 text-to-video R@5: 76.5 |
| video-retrieval-on-lsmdc | VIOLETv2 | text-to-video R@1: 24 text-to-video R@10: 54.1 text-to-video R@5: 43.5 |
| video-retrieval-on-msr-vtt | VIOLETv2 | text-to-video R@1: 37.2 text-to-video R@10: 75.8 text-to-video R@5: 64.8 |
| visual-question-answering-on-msvd-qa-1 | VIOLETv2 | Accuracy: 0.547 |