3 个月前

CLIP4Clip:面向端到端视频片段检索的CLIP实证研究

CLIP4Clip:面向端到端视频片段检索的CLIP实证研究

摘要

视频-文本检索在多模态研究中扮演着至关重要的角色,并已广泛应用于众多现实世界的网络应用场景。CLIP(Contrastive Language-Image Pre-training)作为一种图像-语言预训练模型,展示了从大规模网络收集的图像-文本数据集中学习视觉概念的强大能力。本文提出了一种名为CLIP4Clip的模型,旨在以端到端的方式将CLIP模型的知识迁移至视频-语言检索任务中。通过一系列实证研究,我们探讨了以下几个关键问题:1)图像特征是否足以支撑视频-文本检索任务?2)基于大规模视频-文本数据集对CLIP模型进行后续预训练,对性能提升有何影响?3)在建模视频帧之间时序依赖关系方面,实际有效的机制是什么?4)该模型在视频-文本检索任务中对超参数的敏感性如何?大量实验结果表明,从CLIP迁移而来的CLIP4Clip模型在多个主流视频-文本检索数据集上(包括MSR-VTT、MSVC、LSMDC、ActivityNet和DiDeMo)均取得了当前最优(SOTA)的性能表现。相关代码已开源,地址为:https://github.com/ArrowLuo/CLIP4Clip。

代码仓库

ArrowLuo/CLIP4Clip
官方
pytorch
GitHub 中提及
facebookresearch/EgoTV
pytorch
GitHub 中提及
roudimit/AVLnet
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-video-retrieval-on-msr-vttCLIP4Clip
text-to-video R@1: 44.5
video-retrieval-on-activitynetCLIP4Clip
text-to-video Mean Rank: 7.5
text-to-video Median Rank: 2
text-to-video R@1: 40.5
text-to-video R@5: 73.4
text-to-video R@50: 98.2
video-retrieval-on-didemoCLIP4Clip
text-to-video Mean Rank: 17.5
text-to-video Median Rank: 2.0
text-to-video R@1: 43.4
text-to-video R@10: 80.6
text-to-video R@5: 70.2
video-retrieval-on-lsmdcCLIP4Clip
text-to-video Mean Rank: 58.0
text-to-video R@1: 21.6
text-to-video R@10: 49.8
text-to-video R@5: 41.8
video-retrieval-on-msr-vttCLIP4Clip-seqTransf
text-to-video R@1: 44.5
text-to-video R@10: 81.6
text-to-video R@5: 71.4
video-retrieval-on-msr-vtt-1kaCLIP4Clip
text-to-video Mean Rank: 15.3
text-to-video Median Rank: 2
text-to-video R@10: 81.6
video-to-text Median Rank: 2
video-to-text R@1: 42.7
video-to-text R@10: 80.6
video-to-text R@5: 70.9
video-retrieval-on-msvdCLIP4Clip
text-to-video Mean Rank: 10.0
text-to-video Median Rank: 2
text-to-video R@1: 46.2
text-to-video R@10: 84.6
text-to-video R@5: 76.1
video-to-text Median Rank: 1
video-to-text R@1: 62.0
video-to-text R@10: 92.6
video-to-text R@5: 87.3
zero-shot-video-retrieval-on-lsmdcCLIP4Clip
text-to-video Mean Rank: 117
text-to-video Median Rank: 28
text-to-video R@1: 15.1
text-to-video R@10: 36.4
text-to-video R@5: 28.5
zero-shot-video-retrieval-on-msr-vttCLIP4Clip
text-to-video Mean Rank: 34.0
text-to-video Median Rank: 4
text-to-video R@1: 32.0
text-to-video R@10: 66.9
text-to-video R@5: 57.0
zero-shot-video-retrieval-on-msvdCLIP4Clip
text-to-video Mean Rank: 17.8
text-to-video Median Rank: 2
text-to-video R@1: 38.5
text-to-video R@10: 76.8
text-to-video R@5: 66.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CLIP4Clip:面向端到端视频片段检索的CLIP实证研究 | 论文 | HyperAI超神经