Xiaoqian ShenYunyang XiongChangsheng ZhaoLemeng WuJun ChenChenchen ZhuZechun LiuFanyi XiaoBalakrishnan VaradarajanFlorian BordesZhuang LiuHu XuHyunwoo J. KimBilge SoranRaghuraman KrishnamoorthiMohamed ElhoseinyVikas Chandra

摘要
多模态大语言模型(MLLMs)在理解和分析视频内容方面展示了令人鼓舞的进展。然而,处理长视频仍然是一个重要的挑战,主要受到大语言模型(LLM)上下文长度的限制。为了解决这一局限性,我们提出了一种时空自适应压缩机制——LongVU,该机制能够在保留长视频视觉细节的同时减少视频标记的数量。我们的思路是利用跨模态查询和帧间依赖关系来自适应地减少视频中的时间和空间冗余。具体而言,我们利用DINOv2特征去除高相似度的冗余帧。然后,我们通过文本引导的跨模态查询进行选择性的帧特征减少。进一步地,我们根据帧的时间依赖关系进行空间标记减少。这种自适应压缩策略在给定的上下文长度内有效地处理了大量帧,并且视觉信息损失很小。我们的LongVU在多种视频理解基准测试中始终超越现有方法,特别是在长达一小时的视频理解任务如VideoMME和MLVU上表现尤为突出。即使在轻量级的大语言模型中,我们的LongVU也能有效缩小规模,并保持最先进的视频理解性能。
代码仓库
Vision-CAIR/LongVU
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-mvbench | LongVU (7B) | Avg.: 66.9 |
| zero-shot-video-question-answer-on-egoschema-1 | LongVU (7B) | Accuracy: 67.6 |
| zero-shot-video-question-answer-on-video-mme-1 | LongVU (7B) | Accuracy (%): 60.6 |