3 个月前

iPerceive:将常识推理应用于多模态密集视频字幕生成与视频问答

iPerceive:将常识推理应用于多模态密集视频字幕生成与视频问答

摘要

以往大多数视觉理解研究仅依赖于分析“是什么”(如事件识别)和“在哪里”(如事件定位),但在某些情况下,这种方法无法准确描述事件之间的上下文关系,甚至导致错误的视觉注意力分配。人类与机器的根本区别之一在于,我们天生倾向于探究事件之间的因果关系——例如,当事件Y直接由事件X引发时,我们会本能地追问“为什么”。为此,我们提出iPerceive框架,该框架通过利用上下文线索构建常识知识库,推断视频中物体之间的因果关系,从而实现对视频事件间“为什么”的理解。我们通过密集视频字幕生成(Dense Video Captioning, DVC)和视频问答(Video Question Answering, VideoQA)任务验证了该方法的有效性。此外,尽管现有大多数DVC与VideoQA研究仅依赖视觉信息,但音频和语音等其他模态对于人类观察者感知环境同样至关重要。因此,我们将DVC与VideoQA任务建模为多模态机器翻译问题。在ActivityNet Captions和TVQA数据集上分别评估iPerceive-DVC与iPerceive-VideoQA的性能,结果表明,我们的方法显著提升了现有技术水平。代码与示例可访问:iperceive.amanchadha.com。

基准测试

基准方法指标
dense-video-captioning-on-activitynetiPerceive (Chadha et al., 2020)
BLEU-3: 2.93
BLEU-4: 1.29
METEOR: 7.87
video-question-answering-on-tvqaiPerceive (Chadha et al., 2020)
Accuracy: 76.96

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
iPerceive:将常识推理应用于多模态密集视频字幕生成与视频问答 | 论文 | HyperAI超神经