
摘要
视频-文本检索在多模态研究中扮演着至关重要的角色,并已广泛应用于众多现实世界的网络应用场景。CLIP(Contrastive Language-Image Pre-training)作为一种图像-语言预训练模型,展示了从大规模网络收集的图像-文本数据集中学习视觉概念的强大能力。本文提出了一种名为CLIP4Clip的模型,旨在以端到端的方式将CLIP模型的知识迁移至视频-语言检索任务中。通过一系列实证研究,我们探讨了以下几个关键问题:1)图像特征是否足以支撑视频-文本检索任务?2)基于大规模视频-文本数据集对CLIP模型进行后续预训练,对性能提升有何影响?3)在建模视频帧之间时序依赖关系方面,实际有效的机制是什么?4)该模型在视频-文本检索任务中对超参数的敏感性如何?大量实验结果表明,从CLIP迁移而来的CLIP4Clip模型在多个主流视频-文本检索数据集上(包括MSR-VTT、MSVC、LSMDC、ActivityNet和DiDeMo)均取得了当前最优(SOTA)的性能表现。相关代码已开源,地址为:https://github.com/ArrowLuo/CLIP4Clip。
代码仓库
willard-yuan/video-text-retrieval-papers
GitHub 中提及
ArrowLuo/CLIP4Clip
官方
pytorch
GitHub 中提及
facebookresearch/EgoTV
pytorch
GitHub 中提及
towhee-io/towhee
pytorch
roudimit/AVLnet
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-video-retrieval-on-msr-vtt | CLIP4Clip | text-to-video R@1: 44.5 |
| video-retrieval-on-activitynet | CLIP4Clip | text-to-video Mean Rank: 7.5 text-to-video Median Rank: 2 text-to-video R@1: 40.5 text-to-video R@5: 73.4 text-to-video R@50: 98.2 |
| video-retrieval-on-didemo | CLIP4Clip | text-to-video Mean Rank: 17.5 text-to-video Median Rank: 2.0 text-to-video R@1: 43.4 text-to-video R@10: 80.6 text-to-video R@5: 70.2 |
| video-retrieval-on-lsmdc | CLIP4Clip | text-to-video Mean Rank: 58.0 text-to-video R@1: 21.6 text-to-video R@10: 49.8 text-to-video R@5: 41.8 |
| video-retrieval-on-msr-vtt | CLIP4Clip-seqTransf | text-to-video R@1: 44.5 text-to-video R@10: 81.6 text-to-video R@5: 71.4 |
| video-retrieval-on-msr-vtt-1ka | CLIP4Clip | text-to-video Mean Rank: 15.3 text-to-video Median Rank: 2 text-to-video R@10: 81.6 video-to-text Median Rank: 2 video-to-text R@1: 42.7 video-to-text R@10: 80.6 video-to-text R@5: 70.9 |
| video-retrieval-on-msvd | CLIP4Clip | text-to-video Mean Rank: 10.0 text-to-video Median Rank: 2 text-to-video R@1: 46.2 text-to-video R@10: 84.6 text-to-video R@5: 76.1 video-to-text Median Rank: 1 video-to-text R@1: 62.0 video-to-text R@10: 92.6 video-to-text R@5: 87.3 |
| zero-shot-video-retrieval-on-lsmdc | CLIP4Clip | text-to-video Mean Rank: 117 text-to-video Median Rank: 28 text-to-video R@1: 15.1 text-to-video R@10: 36.4 text-to-video R@5: 28.5 |
| zero-shot-video-retrieval-on-msr-vtt | CLIP4Clip | text-to-video Mean Rank: 34.0 text-to-video Median Rank: 4 text-to-video R@1: 32.0 text-to-video R@10: 66.9 text-to-video R@5: 57.0 |
| zero-shot-video-retrieval-on-msvd | CLIP4Clip | text-to-video Mean Rank: 17.8 text-to-video Median Rank: 2 text-to-video R@1: 38.5 text-to-video R@10: 76.8 text-to-video R@5: 66.9 |