3 个月前

对齐与提示:基于实体提示的视频-语言预训练

对齐与提示:基于实体提示的视频-语言预训练

摘要

视频与语言预训练在多种下游任务中展现出显著的性能提升。然而,以往大多数方法采用基于Transformer的多模态编码器来捕捉跨模态交互,未能充分解决单模态视频特征与文本特征之间的对齐偏差问题。此外,学习细粒度的视觉-语言对齐通常依赖于现成的目标检测器提供对象信息,这受限于检测器词汇表的有限性,且带来较高的计算开销。为此,我们提出了一种高效且有效的视频-语言预训练框架——Align and Prompt(对齐与提示),旨在实现更优的跨模态对齐。首先,我们引入了一种视频-文本对比损失(Video-Text Contrastive, VTC),在实例层面对齐单模态的视频与文本特征,从而简化跨模态交互的建模过程。其次,我们提出了一种新的视觉引导式预训练任务——提示实体建模(Prompting Entity Modeling, PEM),旨在学习细粒度的区域-实体对齐关系。为此,我们设计了一个实体提示模块(Entity Prompter),该模块通过VTC损失进行训练,用于计算视频区域与以实体名称实例化的文本提示之间的相似度。随后,PEM任务要求模型对随机选取的视频区域预测其对应的实体伪标签(即归一化的相似度得分)。所获得的预训练模型在文本-视频检索和视频问答(VideoQA)任务上均达到了当前最优性能,显著超越了以往方法。相关代码与预训练模型已开源,详见:https://github.com/salesforce/ALPRO。

代码仓库

salesforce/alpro
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-didemoALPRO
text-to-video Median Rank: 3
text-to-video R@1: 35.9
text-to-video R@10: 78.8
text-to-video R@5: 67.5
visual-question-answering-on-msrvtt-qa-1ALPRO
Accuracy: 0.421
visual-question-answering-on-msvd-qa-1ALPRO
Accuracy: 0.459
zero-shot-video-retrieval-on-didemoALPRO
text-to-video Median Rank: 6
text-to-video R@1: 23.8
text-to-video R@10: 57.9
text-to-video R@5: 47.3
zero-shot-video-retrieval-on-msr-vttALPRO
text-to-video Median Rank: 8
text-to-video R@1: 24.1
text-to-video R@10: 55.4
text-to-video R@5: 44.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
对齐与提示:基于实体提示的视频-语言预训练 | 论文 | HyperAI超神经