8 个月前

摘要

近年来，预训练模型以学习可迁移的视频-文本表示用于检索引起了广泛关注。以往的主要工作大多采用两个独立的编码器来实现高效检索，但忽略了视频与文本之间的局部关联。另一类研究则使用联合编码器来交互视频与文本，但由于每对文本-视频都需要输入模型，导致效率较低。在本工作中，我们通过一种新颖的预训练任务——多项选择题（Multiple Choice Questions, MCQ）——实现了细粒度的视频-文本交互，同时保持了检索的高效率。具体而言，我们利用文本中的丰富语义（即名词和动词）构建问题，通过这些“问题”调用视频特征来训练参数模块BridgeFormer进行回答。以问题和答案的形式，可以恰当地建立局部视频-文本特征之间的语义关联。对于下游检索任务，BridgeFormer可以在不影响模型效率和灵活性的情况下被移除，从而仅保留两个编码器。我们的方法在五个不同实验设置（即零样本和微调）下的流行文本到视频检索任务中超越了现有最先进的方法，包括包含一百万个视频的HowTo100M数据集。此外，我们还进行了零样本动作识别实验，该任务可以视为从视频到文本的检索任务，我们的方法同样显著优于其他方法。作为额外的优势，我们的方法在单模态下游任务中也取得了具有竞争力的结果，并且使用的预训练视频长度要短得多，例如在线性评估下的动作识别任务。

源 PDF