7 个月前

摘要

自监督学习在利用像YouTube这样的平台上大量未标记数据方面变得越来越重要。尽管现有的大多数方法主要学习低级表示，我们提出了一种联合视觉-语言模型，以无需显式监督的方式学习高级特征。特别是，受到其在语言建模中近期成功应用的启发，我们基于BERT模型来学习视觉和语言标记序列上的双向联合分布，这些标记分别来自视频数据的向量量化和现成的语音识别输出。我们在多个任务中使用VideoBERT，包括动作分类和视频字幕生成。我们展示了该模型可以直接应用于开放词汇分类，并证实了大量训练数据和跨模态信息对于性能至关重要。此外，我们在视频字幕生成任务上超越了现有最佳方法，定量结果验证了该模型确实学会了高级语义特征。

源 PDF