3 个月前

VideoXum:视频的跨模态视觉与纹理摘要

VideoXum:视频的跨模态视觉与纹理摘要

摘要

视频摘要旨在从源视频中提炼出最重要的信息,生成一个精简的视频片段或一段文字叙述。传统方法通常根据输出形式(视频或文本)采用不同的处理策略,从而忽略了视觉摘要与文本摘要这两个语义相关任务之间的内在关联。为此,我们提出了一项新的联合视频与文本摘要任务:从一段长视频中同时生成一个缩短的视频片段及其对应的文本摘要,二者共同构成一个跨模态摘要(cross-modal summary)。生成的视频片段与文本叙述应在语义上保持高度一致。为实现这一目标,我们首先构建了一个大规模的人工标注数据集——VideoXum(X代表不同的模态)。该数据集基于ActivityNet进行重新标注。在剔除不符合长度要求的视频后,新数据集共包含14,001段长视频。每一段视频均配有由人工标注的视频摘要及其对应的叙事性文本摘要。在此基础上,我们设计了一种新型端到端模型——VTSUM-BILP,以应对该任务所面临的挑战。此外,我们提出了一种新的评估指标——VT-CLIPScore,用于衡量跨模态摘要在语义上的一致性。实验结果表明,所提出的模型在该新任务上取得了优异的性能,并为后续研究建立了基准。

代码仓库

jylins/videoxum
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-summarization-on-videoxumVTSUM-BLIP
1 shot Micro-F1: 23.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VideoXum:视频的跨模态视觉与纹理摘要 | 论文 | HyperAI超神经