6 个月前

摘要

现有的大多数文本-视频检索方法主要关注视频视觉内容与文本查询句子之间的跨模态匹配。然而，在真实应用场景中，网络视频通常附带相关文本信息，如标题、标签甚至字幕，这些信息可被用于辅助文本查询的匹配。基于这一观察，我们提出了一种新颖的文本-视频检索方法：利用来自大规模预训练模型（如CLIP和GPT-2）的知识，通过零样本视频字幕生成技术，直接从视频中生成相关的描述性字幕。在获得生成字幕后，一个自然的问题随之而来：这些字幕能为文本-视频检索带来哪些优势？为回答这一问题，我们提出了Cap4Video框架，该框架从三个层面有效利用字幕信息：i）输入数据层面：视频-字幕对可作为补充数据，增强训练集；ii）中间特征交互层面：在视频与字幕之间进行跨模态特征交互，生成更具表现力的视频表征；iii）输出评分层面：引入查询-字幕匹配分支，与原始的查询-视频匹配分支协同，提升检索性能。我们通过全面的消融实验验证了所提方法的有效性。在无需任何后处理的情况下，Cap4Video在四个标准文本-视频检索基准测试上均取得了当前最优性能：MSR-VTT（51.4%）、VATEX（66.6%）、MSVD（51.8%）和DiDeMo（52.0%）。相关代码已开源，地址为：https://github.com/whwu95/Cap4Video。

源 PDF