4 个月前

LongVILA:扩展长上下文视觉语言模型以处理长视频

LongVILA:扩展长上下文视觉语言模型以处理长视频

摘要

长上下文能力对于多模态基础模型至关重要。我们介绍了LongVILA,这是一种针对长上下文视觉语言模型的全栈解决方案,涵盖系统、模型训练和数据集开发。在系统方面,我们提出了首个多模态序列并行(MM-SP)系统,该系统支持长上下文的训练和推理,能够在256个GPU上进行200万上下文长度的训练。此外,MM-SP在纯文本设置下比环形序列并行快2.1倍至5.7倍,比Megatron-LM快1.1倍至1.4倍。它还能够无缝集成到Hugging Face Transformers中。在模型训练方面,我们提出了一种包含对齐、预训练、上下文扩展和长短联合监督微调五个阶段的管道。关于数据集,我们精心构建了大规模的视觉语言预训练数据集和长视频指令跟随数据集,以支持我们的多阶段训练过程。全栈解决方案将VILA的可行帧数扩展了128倍(从8帧到1024帧),并将长视频字幕评分从2.00提高到3.26(提高了1.6倍),在1400帧视频(274k上下文长度)中实现了99.5%的准确率。LongVILA-8B还在VideoMME基准测试中展示了随着视频帧数增加而持续提升的性能表现。

代码仓库

nvlabs/vila
官方
pytorch

基准测试

基准方法指标
video-question-answering-on-next-qaLongVILA(7B)
Accuracy: 80.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LongVILA:扩展长上下文视觉语言模型以处理长视频 | 论文 | HyperAI超神经