XuHu ; GhoshGargi ; HuangPo-Yao ; OkhonkoDmytro ; AghajanyanArmen ; MetzeFlorian ; ZettlemoyerLuke ; FeichtenhoferChristoph

摘要
我们介绍了VideoCLIP,这是一种对比学习方法,用于预训练一个统一模型,以实现零样本视频和文本理解,而无需在下游任务中使用任何标签。VideoCLIP通过对比时间上重叠的正向视频-文本对与从最近邻检索中获得的难负例来训练变压器模型。我们在一系列多样化的下游任务上的实验,包括序列级别的文本-视频检索、VideoQA(视频问答)、标记级别的动作定位以及动作分割,展示了最先进的性能,超越了先前的工作,在某些情况下甚至超过了监督方法。代码已发布在 https://github.com/pytorch/fairseq/tree/main/examples/MMPT。
代码仓库
pytorch/fairseq
官方
pytorch
GitHub 中提及
facebookresearch/fairseq
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-coin | VideoClip | Frame accuracy: 68.7 |
| long-video-retrieval-background-removed-on | VideoCLIP | Cap. Avg. R@1: 74.5 Cap. Avg. R@10: 97.9 Cap. Avg. R@5: 94.5 DTW R@1: 56.0 DTW R@10: 89.9 DTW R@5: 96.3 OTAM R@1: 52.8 OTAM R@10: 89.2 OTAM R@5: 95.0 |
| temporal-action-localization-on-crosstask | VideoCLIP | Recall: 47.3 |
| temporal-relation-extraction-on-vinoground | VideoCLIP | Group Score: 1.2 Text Score: 17 Video Score: 2.8 |
| video-retrieval-on-msr-vtt-1ka | VideoCLIP | text-to-video R@1: 30.9 text-to-video R@10: 66.8 text-to-video R@5: 55.4 |
| video-retrieval-on-youcook2 | VideoCLIP | text-to-video R@1: 32.2 text-to-video R@10: 75.0 text-to-video R@5: 62.6 |
| video-retrieval-on-youcook2 | VideoCLIP (zero-shot) | text-to-video R@1: 22.7 text-to-video R@10: 63.1 text-to-video R@5: 50.4 |
| zero-shot-video-retrieval-on-didemo | VideoCLIP | text-to-video R@1: 16.6 text-to-video R@5: 46.9 |
| zero-shot-video-retrieval-on-msr-vtt | VideoCLIP | text-to-video R@1: 10.4 text-to-video R@10: 30.0 text-to-video R@5: 22.2 |
| zero-shot-video-retrieval-on-youcook2 | VideoCLIP | text-to-video R@1: 22.7 text-to-video R@10: 63.1 text-to-video R@5: 50.4 |