4 个月前

LongVU:长视频语言理解的时空自适应压缩

LongVU:长视频语言理解的时空自适应压缩

摘要

多模态大语言模型(MLLMs)在理解和分析视频内容方面展示了令人鼓舞的进展。然而,处理长视频仍然是一个重要的挑战,主要受到大语言模型(LLM)上下文长度的限制。为了解决这一局限性,我们提出了一种时空自适应压缩机制——LongVU,该机制能够在保留长视频视觉细节的同时减少视频标记的数量。我们的思路是利用跨模态查询和帧间依赖关系来自适应地减少视频中的时间和空间冗余。具体而言,我们利用DINOv2特征去除高相似度的冗余帧。然后,我们通过文本引导的跨模态查询进行选择性的帧特征减少。进一步地,我们根据帧的时间依赖关系进行空间标记减少。这种自适应压缩策略在给定的上下文长度内有效地处理了大量帧,并且视觉信息损失很小。我们的LongVU在多种视频理解基准测试中始终超越现有方法,特别是在长达一小时的视频理解任务如VideoMME和MLVU上表现尤为突出。即使在轻量级的大语言模型中,我们的LongVU也能有效缩小规模,并保持最先进的视频理解性能。

代码仓库

Vision-CAIR/LongVU
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-mvbenchLongVU (7B)
Avg.: 66.9
zero-shot-video-question-answer-on-egoschema-1LongVU (7B)
Accuracy: 67.6
zero-shot-video-question-answer-on-video-mme-1LongVU (7B)
Accuracy (%): 60.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供