6 个月前

摘要

现有的视频字幕基准数据集与模型普遍缺乏因果-时序叙事能力，即通过因果关系串联起来、随时间推移展开、由人物或主体驱动的一系列事件序列。这种叙事结构的缺失严重限制了模型生成能够准确捕捉视频内容中固有时序与因果动态的文本描述的能力。为弥补这一不足，我们提出 NarrativeBridge 框架，包含以下两个核心组成部分：（1）一种基于大语言模型与少样本提示（few-shot prompting）构建的新型因果-时序叙事（Causal-Temporal Narrative, CTN）字幕基准数据集，显式编码视频描述中的因果与时间关系；（2）一种因果-效应网络（Cause-Effect Network, CEN），采用独立的编码器分别建模原因与结果的动态演化，从而实现对具有因果-时序结构的字幕的有效学习与生成。大量实验表明，CEN 在表达视频内容的因果性与时序性方面显著优于当前最先进的模型：在 MSVD-CTN 和 MSRVTT-CTN 数据集上，CIDEr 分别达到 17.88 和 17.44，显著提升。跨数据集评估进一步验证了 CEN 强大的泛化能力。所提出的框架能够理解并生成蕴含复杂因果-时序叙事结构的细腻文本描述，有效解决了视频字幕生成中的关键瓶颈问题。项目详情请访问：https://narrativebridge.github.io/。

源 PDF