3 个月前

MERLOT Reserve:通过视觉、语言与声音获取神经脚本知识

MERLOT Reserve:通过视觉、语言与声音获取神经脚本知识

摘要

作为人类,我们生活在一个多模态的世界中,通过所有感官的协同作用构建对世界的整体认知。我们提出了MERLOT Reserve模型,该模型通过一种新颖的训练目标,联合建模视频在时间维度上的多模态信息,学习来自音频、字幕和视频帧的联合表示。给定一段视频,我们用MASK标记替换其中的部分文本和音频片段,模型则通过预测被掩码内容的正确形式来学习。该训练目标相较于现有方法具有更快的收敛速度,并在大规模数据上表现优异:我们在2000万条YouTube视频上进行了预训练。实证结果表明,MERLOT Reserve能够学习到强大的多模态表征。在微调后,该模型在视觉常识推理(Visual Commonsense Reasoning, VCR)、TVQA和Kinetics-600三个基准任务上均达到当前最优性能,分别超越先前最优方法5%、7%和1.5%。消融实验进一步表明,音频预训练对这些任务具有显著提升作用——即使在以图像为核心的VCR任务(无音频输入)中,音频预训练仍带来明显收益。此外,该模型的训练目标支持开箱即用的预测能力,展现出强大的多模态常识理解能力。在完全零样本(zero-shot)设置下,该模型在四项视频任务上取得了具有竞争力的表现,甚至在近期提出的场景化推理(Situated Reasoning, STAR)基准上超越了部分有监督方法。我们进一步分析了音频为何能促进视觉-语言表征的提升,揭示了未来研究的重要方向。最后,我们讨论了多模态预训练技术在伦理与社会层面带来的潜在影响。

基准测试

基准方法指标
action-classification-on-kinetics-600-
Top-1 Accuracy: 89.7
Top-5 Accuracy: 96.6
action-classification-on-kinetics-600-
Top-1 Accuracy: 91.1
Top-5 Accuracy: 97.1
action-classification-on-kinetics-600-
Top-1 Accuracy: 89.4
Top-5 Accuracy: 96.3
action-classification-on-kinetics-600-
Top-1 Accuracy: 88.1
Top-5 Accuracy: 95.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供