3 个月前

NarrativeBridge:基于因果-时序叙事的视频描述生成

NarrativeBridge:基于因果-时序叙事的视频描述生成

摘要

现有的视频字幕基准数据集与模型普遍缺乏因果-时序叙事能力,即通过因果关系串联起来、随时间推移展开、由人物或主体驱动的一系列事件序列。这种叙事结构的缺失严重限制了模型生成能够准确捕捉视频内容中固有时序与因果动态的文本描述的能力。为弥补这一不足,我们提出 NarrativeBridge 框架,包含以下两个核心组成部分:(1)一种基于大语言模型与少样本提示(few-shot prompting)构建的新型因果-时序叙事(Causal-Temporal Narrative, CTN)字幕基准数据集,显式编码视频描述中的因果与时间关系;(2)一种因果-效应网络(Cause-Effect Network, CEN),采用独立的编码器分别建模原因与结果的动态演化,从而实现对具有因果-时序结构的字幕的有效学习与生成。大量实验表明,CEN 在表达视频内容的因果性与时序性方面显著优于当前最先进的模型:在 MSVD-CTN 和 MSRVTT-CTN 数据集上,CIDEr 分别达到 17.88 和 17.44,显著提升。跨数据集评估进一步验证了 CEN 强大的泛化能力。所提出的框架能够理解并生成蕴含复杂因果-时序叙事结构的细腻文本描述,有效解决了视频字幕生成中的关键瓶颈问题。项目详情请访问:https://narrativebridge.github.io/。

基准测试

基准方法指标
video-captioning-on-msrvtt-ctnCEN
CIDEr: 49.87
ROUGE-L: 27.90
SPICE: 15.76
video-captioning-on-msvd-ctnCEN
CIDEr: 63.51
ROUGE-L: 31.46
SPICE: 19.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NarrativeBridge:基于因果-时序叙事的视频描述生成 | 论文 | HyperAI超神经