3 个月前

MIST:用于长视频问答的多模态迭代时空Transformer

MIST:用于长视频问答的多模态迭代时空Transformer

摘要

为了构建能够辅助人类日常活动的视频问答(VideoQA)系统,从包含多样且复杂事件的长视频中获取答案已成为必要需求。现有的多模态视频问答模型在图像或短视频片段上已取得令人瞩目的性能表现,尤其得益于近期大规模多模态预训练技术的成功。然而,当将这些方法扩展至长视频场景时,新的挑战随之而来:一方面,采用密集采样策略在计算上代价过高;另一方面,依赖稀疏采样的方法在需要多事件、多粒度视觉推理的场景中表现不佳。为此,本文提出一种新型模型——多模态迭代时空Transformer(Multi-modal Iterative Spatial-temporal Transformer, MIST),旨在更有效地适配预训练模型以应对长视频问答任务。具体而言,MIST将传统的密集时空自注意力机制分解为级联的片段与区域选择模块,能够自适应地筛选出与问题密切相关的帧和图像区域。随后,通过注意力机制高效处理不同粒度的视觉概念。此外,MIST在多层网络中迭代执行选择与注意力操作,从而支持对多个事件的复杂推理。在四个主流VideoQA数据集(包括AGQA、NExT-QA、STAR和Env-QA)上的实验结果表明,MIST不仅达到了当前最优的性能水平,同时在计算效率和可解释性方面也展现出显著优势。

代码仓库

showlab/mist
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-agqa-2-0-balancedMIST - AIO
Average Accuracy: 50.96
video-question-answering-on-agqa-2-0-balancedMIST - CLIP
Average Accuracy: 54.39
video-question-answering-on-next-qaMIST
Accuracy: 57.2
video-question-answering-on-situatedMIST
Average Accuracy: 51.13

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MIST:用于长视频问答的多模态迭代时空Transformer | 论文 | HyperAI超神经