4 个月前

从语言到视觉的长上下文迁移

从语言到视觉的长上下文迁移

摘要

视频序列提供了宝贵的时间信息,但现有的大型多模态模型(LMMs)在理解极长视频方面存在不足。许多研究通过使用视觉重采样器减少视觉标记的数量来解决这一问题。而在本文中,我们从语言模型的角度出发,通过简单地扩展语言主干的上下文长度,使多模态模型能够在没有视频训练的情况下理解数量级更多的视觉标记。我们将这种现象称为长上下文迁移,并对其特性进行了仔细的消融分析。为了有效评估多模态模型在视觉模态中对长上下文的泛化能力,我们开发了 V-NIAH(Visual Needle-In-A-Haystack),这是一个受语言模型 NIAH 测试启发的纯合成长视觉基准测试。我们提出的长视频助手(LongVA)可以在不增加额外复杂度的情况下处理 2000 帧或超过 20 万个视觉标记。凭借其扩展的上下文长度,LongVA 在 7B 规模的模型中通过密集采样更多输入帧,在 Video-MME 上实现了最先进的性能。我们的工作已开源,代码库地址为 https://github.com/EvolvingLMMs-Lab/LongVA。

代码仓库

jzhang38/EasyContext
pytorch
GitHub 中提及
evolvinglmms-lab/longva
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-vqa-on-vlm2-benchLongVA-7B
Average Score on VLM2-bench (9 subtasks): 22.59
GC-mat: 14.29
GC-trk: 19.18
OC-cnt: 42.53
OC-cpr: 26.67
OC-grp: 18.50
PC-VID: 3.75
PC-cnt: 38.90
PC-cpr: 21.50
PC-grp: 18.00
zero-shot-video-question-answer-on-next-qaLongVA(32 frames)
Accuracy: 67.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从语言到视觉的长上下文迁移 | 论文 | HyperAI超神经