Peiyuan ZhangKaichen ZhangBo LiGuangtao ZengJingkang YangYuanhan ZhangZiyue WangHaoran TanChunyuan LiZiwei Liu

摘要
视频序列提供了宝贵的时间信息,但现有的大型多模态模型(LMMs)在理解极长视频方面存在不足。许多研究通过使用视觉重采样器减少视觉标记的数量来解决这一问题。而在本文中,我们从语言模型的角度出发,通过简单地扩展语言主干的上下文长度,使多模态模型能够在没有视频训练的情况下理解数量级更多的视觉标记。我们将这种现象称为长上下文迁移,并对其特性进行了仔细的消融分析。为了有效评估多模态模型在视觉模态中对长上下文的泛化能力,我们开发了 V-NIAH(Visual Needle-In-A-Haystack),这是一个受语言模型 NIAH 测试启发的纯合成长视觉基准测试。我们提出的长视频助手(LongVA)可以在不增加额外复杂度的情况下处理 2000 帧或超过 20 万个视觉标记。凭借其扩展的上下文长度,LongVA 在 7B 规模的模型中通过密集采样更多输入帧,在 Video-MME 上实现了最先进的性能。我们的工作已开源,代码库地址为 https://github.com/EvolvingLMMs-Lab/LongVA。
代码仓库
jzhang38/EasyContext
pytorch
GitHub 中提及
evolvinglmms-lab/longva
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-vqa-on-vlm2-bench | LongVA-7B | Average Score on VLM2-bench (9 subtasks): 22.59 GC-mat: 14.29 GC-trk: 19.18 OC-cnt: 42.53 OC-cpr: 26.67 OC-grp: 18.50 PC-VID: 3.75 PC-cnt: 38.90 PC-cpr: 21.50 PC-grp: 18.00 |
| zero-shot-video-question-answer-on-next-qa | LongVA(32 frames) | Accuracy: 67.1 |