6 个月前

计算机视觉

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

摘要

大多数视频字幕模型旨在处理持续几秒的短视频片段，并输出描述低层级视觉概念（如物体、场景、原子动作）的文本。然而，现实世界中的视频通常持续数分钟甚至数小时，具有跨越不同时间粒度的复杂分层结构。为此，我们提出 Video ReCap——一种递归式视频字幕模型，能够处理时长差异极大的视频输入（从1秒到2小时），并生成多层级的视频字幕。该模型采用递归的视频-语言架构，充分挖掘不同时间层级之间的协同效应，可高效处理长达一小时的视频。我们采用课程学习（curriculum learning）训练策略，逐步学习视频的分层结构：首先从描述原子动作的片段级字幕开始，继而聚焦于段落级描述，最终实现对长达一小时视频的摘要生成。此外，我们通过人工收集8,267条长程视频摘要，对Ego4D数据集进行了扩充，构建了Ego4D-HCap数据集。所提出的递归模型不仅能灵活生成不同层级的字幕，还可应用于其他复杂的视频理解任务，例如在EgoSchema数据集上的视频问答（VideoQA）。相关数据、代码与模型已公开，详见：https://sites.google.com/view/vidrecap

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Md Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius

摘要

大多数视频字幕模型旨在处理持续几秒的短视频片段，并输出描述低层级视觉概念（如物体、场景、原子动作）的文本。然而，现实世界中的视频通常持续数分钟甚至数小时，具有跨越不同时间粒度的复杂分层结构。为此，我们提出 Video ReCap——一种递归式视频字幕模型，能够处理时长差异极大的视频输入（从1秒到2小时），并生成多层级的视频字幕。该模型采用递归的视频-语言架构，充分挖掘不同时间层级之间的协同效应，可高效处理长达一小时的视频。我们采用课程学习（curriculum learning）训练策略，逐步学习视频的分层结构：首先从描述原子动作的片段级字幕开始，继而聚焦于段落级描述，最终实现对长达一小时视频的摘要生成。此外，我们通过人工收集8,267条长程视频摘要，对Ego4D数据集进行了扩充，构建了Ego4D-HCap数据集。所提出的递归模型不仅能灵活生成不同层级的字幕，还可应用于其他复杂的视频理解任务，例如在EgoSchema数据集上的视频问答（VideoQA）。相关数据、代码与模型已公开，详见：https://sites.google.com/view/vidrecap

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供