8 个月前

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu

摘要

长上下文能力对于多模态基础模型至关重要。我们提出 LongVILA，这是一个面向长上下文视觉-语言模型的全栈解决方案，涵盖系统架构、模型训练以及数据集构建。在系统层面，我们首次引入了多模态序列并行（Multi-Modal Sequence Parallelism, MM-SP）系统，实现了长上下文的训练与推理，可在 256 块 GPU 上支持长达 200 万 token 的上下文长度训练。MM-SP 具有出色的效率，在纯文本场景下，其速度比环形序列并行（Ring-Style Sequence Parallelism）快 2.1 倍至 5.7 倍，比 Megatron-LM 快 1.1 倍至 1.4 倍，并且可无缝集成至 Hugging Face Transformers 生态。在模型训练方面，我们设计了一个五阶段训练流程，包括对齐、预训练、上下文扩展，以及长短上下文联合监督微调。在数据集方面，我们精心构建了大规模视觉-语言预训练数据集和长视频指令跟随数据集，以支持上述多阶段训练过程。该全栈解决方案将 VILA 模型可处理的帧数提升了 128 倍（从 8 帧扩展至 1024 帧），并将长视频字幕生成任务的得分从 2.00 提升至 3.26（提升 1.6 倍）。在包含 1400 帧（上下文长度达 27.4 万）的“大海捞针”任务中，LongVILA 达到了 99.5% 的准确率。此外，LongVILA-8B 在 VideoMME 基准测试中，随着视频帧数的增加，其在长视频任务上的性能也表现出持续提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Fuzhao Xue Yukang Chen Dacheng Li Qinghao Hu Ligeng Zhu Xiuyu Li Yunhao Fang Haotian Tang Shang Yang Zhijian Liu

摘要

长上下文能力对于多模态基础模型至关重要。我们提出 LongVILA，这是一个面向长上下文视觉-语言模型的全栈解决方案，涵盖系统架构、模型训练以及数据集构建。在系统层面，我们首次引入了多模态序列并行（Multi-Modal Sequence Parallelism, MM-SP）系统，实现了长上下文的训练与推理，可在 256 块 GPU 上支持长达 200 万 token 的上下文长度训练。MM-SP 具有出色的效率，在纯文本场景下，其速度比环形序列并行（Ring-Style Sequence Parallelism）快 2.1 倍至 5.7 倍，比 Megatron-LM 快 1.1 倍至 1.4 倍，并且可无缝集成至 Hugging Face Transformers 生态。在模型训练方面，我们设计了一个五阶段训练流程，包括对齐、预训练、上下文扩展，以及长短上下文联合监督微调。在数据集方面，我们精心构建了大规模视觉-语言预训练数据集和长视频指令跟随数据集，以支持上述多阶段训练过程。该全栈解决方案将 VILA 模型可处理的帧数提升了 128 倍（从 8 帧扩展至 1024 帧），并将长视频字幕生成任务的得分从 2.00 提升至 3.26（提升 1.6 倍）。在包含 1400 帧（上下文长度达 27.4 万）的“大海捞针”任务中，LongVILA 达到了 99.5% 的准确率。此外，LongVILA-8B 在 VideoMME 基准测试中，随着视频帧数的增加，其在长视频任务上的性能也表现出持续提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

LongVILA：面向长视频的长上下文视觉语言模型扩展 | 论文 | HyperAI超神经