6 个月前

摘要

本文提出了一种用于视频问答（Video Question Answering, VideoQA）任务的视频图Transformer（Video Graph Transformer, VGT）模型。VGT的创新之处主要体现在两个方面：其一，设计了一种动态图Transformer模块，能够显式地建模视频中的视觉对象、对象间关系及其动态变化，从而支持复杂的时空推理；其二，采用解耦的视频与文本Transformer架构，通过独立编码视频与文本表示，并在后续进行语义相关性比较来完成问答任务，而非使用传统的跨模态纠缠Transformer进行答案分类。视觉与文本之间的交互则通过额外的跨模态交互模块实现。得益于更合理的视频编码机制与更优的问答求解策略，我们在无需预训练（pretraining-free）的设定下，验证了VGT在需要动态关系推理的VideoQA任务上显著优于现有方法。其性能甚至超越了那些基于数百万外部数据进行预训练的模型。此外，我们进一步表明，VGT在仅使用远少于现有方法数量级的自监督跨模态预训练数据时，仍能获得显著性能提升，充分展现了其在数据高效预训练方面的巨大潜力。上述结果清晰地证明了VGT的有效性与优越性，揭示了其在推动视频问答研究从粗粒度的视觉识别/描述迈向真实视频中细粒度关系推理方向的重要价值。通过全面的分析与若干启发式观察，我们期望VGT能为该领域的发展提供新的思路。相关代码已开源，地址为：https://github.com/sail-sg/VGT。

源 PDF