4 个月前

VideoBERT:视频和语言表示学习的联合模型

VideoBERT:视频和语言表示学习的联合模型

摘要

自监督学习在利用像YouTube这样的平台上大量未标记数据方面变得越来越重要。尽管现有的大多数方法主要学习低级表示,我们提出了一种联合视觉-语言模型,以无需显式监督的方式学习高级特征。特别是,受到其在语言建模中近期成功应用的启发,我们基于BERT模型来学习视觉和语言标记序列上的双向联合分布,这些标记分别来自视频数据的向量量化和现成的语音识别输出。我们在多个任务中使用VideoBERT,包括动作分类和视频字幕生成。我们展示了该模型可以直接应用于开放词汇分类,并证实了大量训练数据和跨模态信息对于性能至关重要。此外,我们在视频字幕生成任务上超越了现有最佳方法,定量结果验证了该模型确实学会了高级语义特征。

代码仓库

ammesatyajit/VideoBERT
pytorch
GitHub 中提及
parkervg/allrecipes-bert
GitHub 中提及
MDSKUL/MasterProject
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-youcook2VideoBERT (cross modal)
Object Top 5 Accuracy: 33.7
Object Top-1 Accuracy: 13.1
Verb Top-1 Accuracy: 3.2
Verb Top-5 Accuracy: 43.3
video-captioning-on-youcook2VideoBERT + S3D
BLEU-3: 7.59
BLEU-4: 4.33
CIDEr: 0.55
METEOR: 11.94
ROUGE-L: 28.80

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VideoBERT:视频和语言表示学习的联合模型 | 论文 | HyperAI超神经