
摘要
自监督学习在利用像YouTube这样的平台上大量未标记数据方面变得越来越重要。尽管现有的大多数方法主要学习低级表示,我们提出了一种联合视觉-语言模型,以无需显式监督的方式学习高级特征。特别是,受到其在语言建模中近期成功应用的启发,我们基于BERT模型来学习视觉和语言标记序列上的双向联合分布,这些标记分别来自视频数据的向量量化和现成的语音识别输出。我们在多个任务中使用VideoBERT,包括动作分类和视频字幕生成。我们展示了该模型可以直接应用于开放词汇分类,并证实了大量训练数据和跨模态信息对于性能至关重要。此外,我们在视频字幕生成任务上超越了现有最佳方法,定量结果验证了该模型确实学会了高级语义特征。
代码仓库
ammesatyajit/VideoBERT
pytorch
GitHub 中提及
parkervg/allrecipes-bert
GitHub 中提及
MDSKUL/MasterProject
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-youcook2 | VideoBERT (cross modal) | Object Top 5 Accuracy: 33.7 Object Top-1 Accuracy: 13.1 Verb Top-1 Accuracy: 3.2 Verb Top-5 Accuracy: 43.3 |
| video-captioning-on-youcook2 | VideoBERT + S3D | BLEU-3: 7.59 BLEU-4: 4.33 CIDEr: 0.55 METEOR: 11.94 ROUGE-L: 28.80 |