3 个月前

CLIP2TV:对齐、匹配与蒸馏用于视频-文本检索

CLIP2TV:对齐、匹配与蒸馏用于视频-文本检索

摘要

当前的视频-文本检索框架通常由三部分构成:视频编码器、文本编码器以及相似度判别头。随着视觉与文本表征学习的不断进步,基于Transformer的编码器及其融合方法也逐渐被引入视频-文本检索领域。本报告提出CLIP2TV,旨在探究基于Transformer的方法中关键要素所在。为此,我们首先回顾了多模态学习领域的一些最新研究工作,随后将其中若干关键技术引入视频-文本检索任务,并在多种配置下通过大量实验进行评估。值得注意的是,CLIP2TV在MSR-VTT数据集上取得了52.9@R1的性能,相较于此前的最先进结果提升了4.1%。

基准测试

基准方法指标
video-retrieval-on-msr-vttCLIP2TV
text-to-video Mean Rank: 44.7
text-to-video Median Rank: 3
text-to-video R@1: 33.1
text-to-video R@10: 68.9
text-to-video R@5: 58.9
video-retrieval-on-msr-vtt-1kaCLIP2TV
text-to-video Mean Rank: 12.8
text-to-video Median Rank: 1
text-to-video R@1: 52.9
text-to-video R@10: 86.5
text-to-video R@5: 78.5
video-to-text Mean Rank: 9.0
video-to-text Median Rank: 1
video-to-text R@1: 54.1
video-to-text R@10: 85.7
video-to-text R@5: 77.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CLIP2TV:对齐、匹配与蒸馏用于视频-文本检索 | 论文 | HyperAI超神经