3 个月前

BIMBA:面向长距离视频问答的定向扫描压缩

BIMBA:面向长距离视频问答的定向扫描压缩

摘要

长视频中的视频问答(Video Question Answering, VQA)面临的核心挑战在于从大量冗余帧中提取相关信息,并建模长距离依赖关系。自注意力机制虽为序列建模提供了一种通用解决方案,但在处理长视频中海量时空标记(spatiotemporal tokens)时,其计算开销极为高昂。现有大多数方法依赖压缩策略以降低计算成本,例如通过稀疏采样减少输入长度,或通过时空池化压缩传递给大语言模型(Large Language Model, LLM)的输出序列。然而,这些简单的方法往往过度保留冗余信息,容易遗漏关键事件或快速变化的时空模式。在本工作中,我们提出BIMBA——一种高效的状态空间模型,用于处理长时视频。该模型利用选择性扫描(selective scan)算法,能够有效从高维视频数据中筛选出关键信息,并将其转换为精简的标记序列,从而实现对大语言模型的高效处理。大量实验表明,BIMBA在多个长视频VQA基准测试中均取得了当前最优的准确率,涵盖PerceptionTest、NExT-QA、EgoSchema、VNBench、LongVideoBench和Video-MME等主流数据集。相关代码与模型已公开发布于:https://sites.google.com/view/bimba-mllm。

代码仓库

md-mohaiminul/BIMBA
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-next-qaBIMBA-LLaVA-Qwen2-7B
Accuracy: 83.73
video-question-answering-on-perception-testBIMBA-LLaVA-Qwen2-7B
Accuracy (Top-1): 68.51
zero-shot-video-question-answer-on-egoschema-1BIMBA-LLaVA-Qwen2-7B
Accuracy: 71.14
zero-shot-video-question-answer-on-video-mme-1BIMBA-LLaVA-Qwen2-7B
Accuracy (%): 64.67

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BIMBA:面向长距离视频问答的定向扫描压缩 | 论文 | HyperAI超神经