
摘要
当前的视频-文本检索框架通常由三部分构成:视频编码器、文本编码器以及相似度判别头。随着视觉与文本表征学习的不断进步,基于Transformer的编码器及其融合方法也逐渐被引入视频-文本检索领域。本报告提出CLIP2TV,旨在探究基于Transformer的方法中关键要素所在。为此,我们首先回顾了多模态学习领域的一些最新研究工作,随后将其中若干关键技术引入视频-文本检索任务,并在多种配置下通过大量实验进行评估。值得注意的是,CLIP2TV在MSR-VTT数据集上取得了52.9@R1的性能,相较于此前的最先进结果提升了4.1%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-msr-vtt | CLIP2TV | text-to-video Mean Rank: 44.7 text-to-video Median Rank: 3 text-to-video R@1: 33.1 text-to-video R@10: 68.9 text-to-video R@5: 58.9 |
| video-retrieval-on-msr-vtt-1ka | CLIP2TV | text-to-video Mean Rank: 12.8 text-to-video Median Rank: 1 text-to-video R@1: 52.9 text-to-video R@10: 86.5 text-to-video R@5: 78.5 video-to-text Mean Rank: 9.0 video-to-text Median Rank: 1 video-to-text R@1: 54.1 video-to-text R@10: 85.7 video-to-text R@5: 77.4 |