6 个月前

摘要

视频与语言预训练在多种下游任务中展现出显著的性能提升。然而，以往大多数方法采用基于Transformer的多模态编码器来捕捉跨模态交互，未能充分解决单模态视频特征与文本特征之间的对齐偏差问题。此外，学习细粒度的视觉-语言对齐通常依赖于现成的目标检测器提供对象信息，这受限于检测器词汇表的有限性，且带来较高的计算开销。为此，我们提出了一种高效且有效的视频-语言预训练框架——Align and Prompt（对齐与提示），旨在实现更优的跨模态对齐。首先，我们引入了一种视频-文本对比损失（Video-Text Contrastive, VTC），在实例层面对齐单模态的视频与文本特征，从而简化跨模态交互的建模过程。其次，我们提出了一种新的视觉引导式预训练任务——提示实体建模（Prompting Entity Modeling, PEM），旨在学习细粒度的区域-实体对齐关系。为此，我们设计了一个实体提示模块（Entity Prompter），该模块通过VTC损失进行训练，用于计算视频区域与以实体名称实例化的文本提示之间的相似度。随后，PEM任务要求模型对随机选取的视频区域预测其对应的实体伪标签（即归一化的相似度得分）。所获得的预训练模型在文本-视频检索和视频问答（VideoQA）任务上均达到了当前最优性能，显著超越了以往方法。相关代码与预训练模型已开源，详见：https://github.com/salesforce/ALPRO。

源 PDF 查看代码