4 个月前

基于事件的可解释推理在视频问答中的应用

基于事件的可解释推理在视频问答中的应用

摘要

在本文中,我们介绍了ENTER,一种基于事件图的可解释视频问答(VideoQA)系统。事件图将视频转换为图形表示,其中视频事件构成节点,而事件之间的关系(时间/因果/层次)则构成边。这种结构化的表示形式带来了许多优势:1) 通过生成解析事件图的代码实现可解释的视频问答;2) 通过事件图在推理过程中(代码生成)融入上下文视觉信息;3) 通过事件图的分层迭代更新实现稳健的视频问答。现有的可解释视频问答系统通常采用自上而下的方法,在推理计划生成时忽略低级别的视觉信息,因此较为脆弱。而自下而上的方法虽然能从视觉数据中生成响应,但缺乏可解释性。我们在NExT-QA、IntentQA和EgoSchema数据集上的实验结果表明,我们的方法不仅在性能上优于现有的自上而下方法,并且在与自下而上方法的竞争中也表现出色,更重要的是,在推理过程中提供了更高的可解释性和透明度。

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于事件的可解释推理在视频问答中的应用 | 论文 | HyperAI超神经