
摘要
预训练的图文模型(如CLIP)已展现出从大规模网络收集的图文数据中学习到的视觉-语言表征的强大能力。基于这些已充分学习的视觉特征,已有部分工作将图像表征迁移至视频领域,并取得了良好效果。然而,如何利用图像-语言预训练模型(如CLIP)进行视频-语言的后续预训练(post-pretraining),仍是一个尚未充分探索的问题。本文围绕两个核心问题展开研究:1)阻碍CLIP在视频-语言任务上进一步提升性能的关键因素有哪些?2)应如何缓解这些因素的影响?通过一系列对比实验与深入分析,我们发现,语言数据的规模以及不同语言来源之间的领域差异是影响性能的主要因素。受此启发,我们在CLIP基础上提出一种名为CLIP-ViP的全源跨模态学习方法(Omnisource Cross-modal Learning),并引入视频代理机制(Video Proxy mechanism),以增强模型在视频-语言任务上的适应能力。大量实验结果表明,该方法显著提升了CLIP在视频-文本检索任务上的性能。此外,我们的模型在多个主流数据集上均取得了当前最优(SOTA)结果,涵盖MSR-VTT、DiDeMo、LSMDC和ActivityNet等。相关代码及预训练的CLIP-ViP模型将开源发布于:https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP。
代码仓库
microsoft/xpretrain
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-activitynet | CLIP-ViP | text-to-video Median Rank: 1 text-to-video R@1: 61.4 text-to-video R@10: 92.6 text-to-video R@5: 85.7 |
| video-retrieval-on-didemo | CLIP-ViP | text-to-video Median Rank: 1 text-to-video R@1: 55.3 text-to-video R@10: 89.3 text-to-video R@5: 82 |
| video-retrieval-on-lsmdc | CLIP-ViP | text-to-video Median Rank: 5 text-to-video R@1: 30.7 text-to-video R@10: 60.6 text-to-video R@5: 51.4 |
| video-retrieval-on-msr-vtt-1ka | CLIP-ViP | text-to-video Median Rank: 1.0 text-to-video R@1: 57.7 text-to-video R@10: 88.2 text-to-video R@5: 80.5 |