
摘要
大多数视频字幕模型旨在处理持续几秒的短视频片段,并输出描述低层级视觉概念(如物体、场景、原子动作)的文本。然而,现实世界中的视频通常持续数分钟甚至数小时,具有跨越不同时间粒度的复杂分层结构。为此,我们提出 Video ReCap——一种递归式视频字幕模型,能够处理时长差异极大的视频输入(从1秒到2小时),并生成多层级的视频字幕。该模型采用递归的视频-语言架构,充分挖掘不同时间层级之间的协同效应,可高效处理长达一小时的视频。我们采用课程学习(curriculum learning)训练策略,逐步学习视频的分层结构:首先从描述原子动作的片段级字幕开始,继而聚焦于段落级描述,最终实现对长达一小时视频的摘要生成。此外,我们通过人工收集8,267条长程视频摘要,对Ego4D数据集进行了扩充,构建了Ego4D-HCap数据集。所提出的递归模型不仅能灵活生成不同层级的字幕,还可应用于其他复杂的视频理解任务,例如在EgoSchema数据集上的视频问答(VideoQA)。相关数据、代码与模型已公开,详见:https://sites.google.com/view/vidrecap
代码仓库
tanveer81/rgnet
pytorch
GitHub 中提及
md-mohaiminul/VideoRecap
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-video-question-answer-on-egoschema-1 | Video ReCap | Accuracy: 50.23 |