3 个月前

Video ReCap:时长一小时视频的递归字幕生成

Video ReCap:时长一小时视频的递归字幕生成

摘要

大多数视频字幕模型旨在处理持续几秒的短视频片段,并输出描述低层级视觉概念(如物体、场景、原子动作)的文本。然而,现实世界中的视频通常持续数分钟甚至数小时,具有跨越不同时间粒度的复杂分层结构。为此,我们提出 Video ReCap——一种递归式视频字幕模型,能够处理时长差异极大的视频输入(从1秒到2小时),并生成多层级的视频字幕。该模型采用递归的视频-语言架构,充分挖掘不同时间层级之间的协同效应,可高效处理长达一小时的视频。我们采用课程学习(curriculum learning)训练策略,逐步学习视频的分层结构:首先从描述原子动作的片段级字幕开始,继而聚焦于段落级描述,最终实现对长达一小时视频的摘要生成。此外,我们通过人工收集8,267条长程视频摘要,对Ego4D数据集进行了扩充,构建了Ego4D-HCap数据集。所提出的递归模型不仅能灵活生成不同层级的字幕,还可应用于其他复杂的视频理解任务,例如在EgoSchema数据集上的视频问答(VideoQA)。相关数据、代码与模型已公开,详见:https://sites.google.com/view/vidrecap

代码仓库

tanveer81/rgnet
pytorch
GitHub 中提及
md-mohaiminul/VideoRecap
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-video-question-answer-on-egoschema-1Video ReCap
Accuracy: 50.23

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Video ReCap:时长一小时视频的递归字幕生成 | 论文 | HyperAI超神经