
摘要
近年来,预训练模型以学习可迁移的视频-文本表示用于检索引起了广泛关注。以往的主要工作大多采用两个独立的编码器来实现高效检索,但忽略了视频与文本之间的局部关联。另一类研究则使用联合编码器来交互视频与文本,但由于每对文本-视频都需要输入模型,导致效率较低。在本工作中,我们通过一种新颖的预训练任务——多项选择题(Multiple Choice Questions, MCQ)——实现了细粒度的视频-文本交互,同时保持了检索的高效率。具体而言,我们利用文本中的丰富语义(即名词和动词)构建问题,通过这些“问题”调用视频特征来训练参数模块BridgeFormer进行回答。以问题和答案的形式,可以恰当地建立局部视频-文本特征之间的语义关联。对于下游检索任务,BridgeFormer可以在不影响模型效率和灵活性的情况下被移除,从而仅保留两个编码器。我们的方法在五个不同实验设置(即零样本和微调)下的流行文本到视频检索任务中超越了现有最先进的方法,包括包含一百万个视频的HowTo100M数据集。此外,我们还进行了零样本动作识别实验,该任务可以视为从视频到文本的检索任务,我们的方法同样显著优于其他方法。作为额外的优势,我们的方法在单模态下游任务中也取得了具有竞争力的结果,并且使用的预训练视频长度要短得多,例如在线性评估下的动作识别任务。
代码仓库
tencentarc/mcq
官方
pytorch
GitHub 中提及
towhee-io/towhee
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-msr-vtt-1ka | BridgeFormer (Zero-shot) | text-to-video Median Rank: 7 text-to-video R@1: 26 text-to-video R@10: 56.4 text-to-video R@5: 46.4 |
| video-retrieval-on-msr-vtt-1ka | BridgeFormer | text-to-video Median Rank: 3 text-to-video R@1: 37.6 text-to-video R@10: 75.1 text-to-video R@5: 64.8 |
| zero-shot-video-retrieval-on-didemo | Y. Ge et. al. | text-to-video Median Rank: 5.0 text-to-video R@1: 25.6 text-to-video R@10: 61.1 text-to-video R@5: 50.6 |
| zero-shot-video-retrieval-on-lsmdc | Y. Ge et. al. | text-to-video Median Rank: 42.0 text-to-video R@1: 12.2 text-to-video R@10: 32.2 text-to-video R@5: 25.9 |
| zero-shot-video-retrieval-on-msr-vtt | Y. Ge et. al. | text-to-video Median Rank: 7.0 text-to-video R@1: 26.0 text-to-video R@10: 56.4 text-to-video R@5: 46.4 |
| zero-shot-video-retrieval-on-msvd | Y. Ge et. al. | text-to-video Median Rank: 2.0 text-to-video R@1: 43.6 text-to-video R@10: 84.9 text-to-video R@5: 74.9 |