3 个月前

基于掩码视觉建模的端到端视频-语言Transformer的实证研究

基于掩码视觉建模的端到端视频-语言Transformer的实证研究

摘要

掩码视觉建模(Masked Visual Modeling, MVM)近年来已被证明在视觉预训练中具有显著有效性。尽管在视频-语言(VidL)预训练中已对视频输入采用类似的重建目标(如掩码帧建模)进行了探索,但以往研究未能发现一种真正有效的MVM策略,以显著提升下游任务性能。在本工作中,我们系统性地考察了MVM在VidL学习场景中的潜力。具体而言,我们基于一个完全端到端的视频-语言Transformer模型——VIOLET(VIdeO-LanguagE Transformer),该模型能够将MVM训练所引入的监督信号反向传播至视频像素空间。我们共探索了八种不同的MVM重建目标,涵盖从低层像素值、方向梯度,到高层深度图、光流、离散视觉标记以及潜在视觉特征等多个层面。通过一系列全面的实验,我们深入分析了影响MVM训练有效性的关键因素,进而提出了性能增强的模型VIOLETv2。实验结果表明,使用MVM目标预训练的VIOLETv2在13个VidL基准任务上均取得显著提升,涵盖视频问答、视频字幕生成以及文本到视频检索等多种任务。

代码仓库

基准测试

基准方法指标
video-captioning-on-msr-vtt-1VIOLETv2
CIDEr: 58
video-captioning-on-msvd-1VIOLETv2
CIDEr: 139.2
video-question-answering-on-lsmdc-mcVIOLETv2
Accuracy: 84.4
video-question-answering-on-msrvtt-mcVIOLETv2
Accuracy: 97.6
video-question-answering-on-msrvtt-qaVIOLETv2
Accuracy: 44.5
video-retrieval-on-didemoVIOLETv2
text-to-video R@1: 47.9
text-to-video R@10: 84.1
text-to-video R@5: 76.5
video-retrieval-on-lsmdcVIOLETv2
text-to-video R@1: 24
text-to-video R@10: 54.1
text-to-video R@5: 43.5
video-retrieval-on-msr-vttVIOLETv2
text-to-video R@1: 37.2
text-to-video R@10: 75.8
text-to-video R@5: 64.8
visual-question-answering-on-msvd-qa-1VIOLETv2
Accuracy: 0.547

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于掩码视觉建模的端到端视频-语言Transformer的实证研究 | 论文 | HyperAI超神经