ChenTieyuan ; LiuHuabin ; HeTianyao ; ChenYihang ; GanChaofan ; MaXiao ; ZhongCheng ; ZhangYang ; WangYingxue ; LinHui ; LinWeiyao

摘要
视频因果推理旨在从因果角度实现对视频内容的高层次理解。然而,当前的视频推理任务在范围上存在局限,主要以问答形式进行,并且主要集中于包含单一事件和简单因果关系的短片段,缺乏对多事件视频进行全面和结构化的因果分析。为了填补这一空白,我们引入了一项新的任务和数据集——多事件因果发现(Multi-Event Causal Discovery, MECD)。该任务的目标是揭示分布在长视频中多个事件之间的因果关系。给定视觉片段和事件的文字描述,MECD 要求识别这些事件之间的因果关联,从而生成一个全面、结构化的事件级视频因果图,解释最终结果事件的发生原因及其过程。为了解决 MECD 问题,我们设计了一个受格兰杰因果检验方法启发的新框架,利用高效的基于掩码的事件预测模型执行“事件格兰杰测试”(Event Granger Test),通过比较前提事件被掩码和未被掩码时的预测结果来估计因果关系。此外,我们还整合了诸如前门调整(front-door adjustment)和反事实推理(counterfactual inference)等因果推断技术,以应对 MECD 中的因果混淆和虚假因果关系等挑战。实验验证了我们的框架在提供多事件视频中的因果关系方面的有效性,分别优于 GPT-4o 和 VideoLLaVA 5.7% 和 4.1%。
代码仓库
tychen-SJTU/MECD-Benchmark
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| causal-discovery-in-video-reasoning-on-mecd | VGCM | Accuracy: 71.20 Ave SHD: 4.19 |