6 个月前

摘要

学习烹饪、汽车保养和家居维修等具体实践技能，如今越来越多地通过教学视频实现。研究表明，为这类视频添加时间戳标注等元信息，能够显著提升用户的观看体验。然而，自动产生此类标注仍面临较大挑战。本文提出了两项相关贡献：首先，我们构建并发布了全新的密集视频字幕数据集——视频时间轴标签（Video Timeline Tags, ViTT），该数据集包含多种教学视频及其对应的时间戳标注。其次，我们探索了多种多模态序列到序列的预训练策略，充分利用大规模无监督的视频与类似字幕的文本数据。我们基于YouCook2和ViTT两个数据集，对密集视频字幕模型进行了预训练与后续微调。实验结果表明，这些模型具备良好的泛化能力，并在多种不同类型的教学视频上均表现出较强的鲁棒性。

源 PDF