3 个月前

Cap4Video:辅助字幕在文本-视频检索中能发挥什么作用?

Cap4Video:辅助字幕在文本-视频检索中能发挥什么作用?

摘要

现有的大多数文本-视频检索方法主要关注视频视觉内容与文本查询句子之间的跨模态匹配。然而,在真实应用场景中,网络视频通常附带相关文本信息,如标题、标签甚至字幕,这些信息可被用于辅助文本查询的匹配。基于这一观察,我们提出了一种新颖的文本-视频检索方法:利用来自大规模预训练模型(如CLIP和GPT-2)的知识,通过零样本视频字幕生成技术,直接从视频中生成相关的描述性字幕。在获得生成字幕后,一个自然的问题随之而来:这些字幕能为文本-视频检索带来哪些优势?为回答这一问题,我们提出了Cap4Video框架,该框架从三个层面有效利用字幕信息:i)输入数据层面:视频-字幕对可作为补充数据,增强训练集;ii)中间特征交互层面:在视频与字幕之间进行跨模态特征交互,生成更具表现力的视频表征;iii)输出评分层面:引入查询-字幕匹配分支,与原始的查询-视频匹配分支协同,提升检索性能。我们通过全面的消融实验验证了所提方法的有效性。在无需任何后处理的情况下,Cap4Video在四个标准文本-视频检索基准测试上均取得了当前最优性能:MSR-VTT(51.4%)、VATEX(66.6%)、MSVD(51.8%)和DiDeMo(52.0%)。相关代码已开源,地址为:https://github.com/whwu95/Cap4Video。

代码仓库

whwu95/Cap4Video
官方
pytorch
GitHub 中提及
whwu95/text4vis
pytorch
GitHub 中提及
whwu95/BIKE
pytorch
GitHub 中提及
whwu95/GPT4Vis
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-didemoCap4Video
text-to-video Mean Rank: 10.5
text-to-video Median Rank: 1
text-to-video R@1: 52.0
text-to-video R@10: 87.5
text-to-video R@5: 79.4
video-to-text Mean Rank: 7.3
video-to-text Median Rank: 1
video-to-text R@1: 51.2
video-to-text R@10: 87.4
video-to-text R@5: 78.5
video-retrieval-on-msr-vtt-1kaCap4Video
text-to-video Mean Rank: 12.4
text-to-video Median Rank: 1
text-to-video R@1: 51.4
text-to-video R@10: 83.9
text-to-video R@5: 75.7
video-to-text Mean Rank: 8.0
video-to-text Median Rank: 2
video-to-text R@1: 49.0
video-to-text R@10: 85.0
video-to-text R@5: 75.2
video-retrieval-on-msvdCap4Video
text-to-video Mean Rank: 8.3
text-to-video Median Rank: 1
text-to-video R@1: 51.8
text-to-video R@10: 88.3
text-to-video R@5: 80.8
video-to-text Mean Rank: 2.4
video-to-text Median Rank: 1
video-to-text R@1: 70.0
video-to-text R@10: 96.2
video-to-text R@5: 93.2
video-retrieval-on-vatexCap4Video
text-to-video MeanR: 2.7
text-to-video MedianR: 1
text-to-video R@1: 66.6
text-to-video R@10: 97.0
text-to-video R@5: 93.1
video-to-text R@1: 80.9
video-to-text R@10: 99.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Cap4Video:辅助字幕在文本-视频检索中能发挥什么作用? | 论文 | HyperAI超神经