3 个月前

多模态预训练在密集视频字幕生成中的应用

多模态预训练在密集视频字幕生成中的应用

摘要

学习烹饪、汽车保养和家居维修等具体实践技能,如今越来越多地通过教学视频实现。研究表明,为这类视频添加时间戳标注等元信息,能够显著提升用户的观看体验。然而,自动产生此类标注仍面临较大挑战。本文提出了两项相关贡献:首先,我们构建并发布了全新的密集视频字幕数据集——视频时间轴标签(Video Timeline Tags, ViTT),该数据集包含多种教学视频及其对应的时间戳标注。其次,我们探索了多种多模态序列到序列的预训练策略,充分利用大规模无监督的视频与类似字幕的文本数据。我们基于YouCook2和ViTT两个数据集,对密集视频字幕模型进行了预训练与后续微调。实验结果表明,这些模型具备良好的泛化能力,并在多种不同类型的教学视频上均表现出较强的鲁棒性。

代码仓库

基准测试

基准方法指标
dense-video-captioning-on-youcook2E2vidD6-MASSalign-BiD
ROUGE-L: 39.03
video-captioning-on-youcook2E2vidD6-MASSvid-BiD
BLEU-4: 12.04
CIDEr: 1.22
METEOR: 18.32
ROUGE-L: 39.03

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态预训练在密集视频字幕生成中的应用 | 论文 | HyperAI超神经