
摘要
长视频中的视频问答(Video Question Answering, VQA)面临的核心挑战在于从大量冗余帧中提取相关信息,并建模长距离依赖关系。自注意力机制虽为序列建模提供了一种通用解决方案,但在处理长视频中海量时空标记(spatiotemporal tokens)时,其计算开销极为高昂。现有大多数方法依赖压缩策略以降低计算成本,例如通过稀疏采样减少输入长度,或通过时空池化压缩传递给大语言模型(Large Language Model, LLM)的输出序列。然而,这些简单的方法往往过度保留冗余信息,容易遗漏关键事件或快速变化的时空模式。在本工作中,我们提出BIMBA——一种高效的状态空间模型,用于处理长时视频。该模型利用选择性扫描(selective scan)算法,能够有效从高维视频数据中筛选出关键信息,并将其转换为精简的标记序列,从而实现对大语言模型的高效处理。大量实验表明,BIMBA在多个长视频VQA基准测试中均取得了当前最优的准确率,涵盖PerceptionTest、NExT-QA、EgoSchema、VNBench、LongVideoBench和Video-MME等主流数据集。相关代码与模型已公开发布于:https://sites.google.com/view/bimba-mllm。
代码仓库
md-mohaiminul/BIMBA
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-next-qa | BIMBA-LLaVA-Qwen2-7B | Accuracy: 83.73 |
| video-question-answering-on-perception-test | BIMBA-LLaVA-Qwen2-7B | Accuracy (Top-1): 68.51 |
| zero-shot-video-question-answer-on-egoschema-1 | BIMBA-LLaVA-Qwen2-7B | Accuracy: 71.14 |
| zero-shot-video-question-answer-on-video-mme-1 | BIMBA-LLaVA-Qwen2-7B | Accuracy (%): 64.67 |