3 个月前

VILA:视觉语言模型预训练研究

VILA:视觉语言模型预训练研究

摘要

视觉语言模型(Visual Language Models, VLMs)近年来随着大规模语言模型(Large Language Models, LLMs)的成功而迅速发展。尽管已有大量研究致力于视觉指令微调(visual instruction tuning),以拓展LLM对视觉输入的处理能力,但对视觉语言预训练过程的深入研究仍显不足——这一阶段正是模型学习联合建模视觉与语言两种模态的关键时期。在本研究中,我们通过逐步可控的对比实验,系统性地考察了VLM预训练的设计选择,方法是将LLM逐步扩展为VLM。我们得出三个主要发现:(1)在预训练阶段冻结LLM可获得良好的零样本性能,但缺乏上下文学习(in-context learning)能力,而这种能力需要在后续阶段解冻LLM才能实现;(2)交错式(interleaved)的预训练数据结构具有显著优势,而仅使用图像-文本配对数据并非最优方案;(3)在指令微调阶段,将纯文本指令数据重新混合为图文数据形式,不仅能缓解纯文本任务性能的下降,还能显著提升VLM任务的准确率。基于这一优化的预训练策略,我们构建了VILA——一个视觉语言模型系列。该模型在主流基准测试中持续超越当前最先进的模型(如LLaVA-1.5),且无需依赖额外的复杂技巧(bells and whistles)。此外,多模态预训练还揭示了VILA所具备的若干引人注目的特性,包括多图像推理能力、更强的上下文学习能力以及更优的世界知识理解能力。

代码仓库

efficient-large-model/vila
官方
pytorch
GitHub 中提及
nvlabs/vila
官方
pytorch
GitHub 中提及
mit-han-lab/llm-awq
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-mm-vetVILA-13B
GPT-4 score: 45.7
zero-shot-video-question-answer-on-video-mmeVILA-1.5 (34B)
Accuracy (%): 61.4
zero-shot-video-question-answer-on-video-mme-1VILA-1.5 (34B)
Accuracy (%): 64.1
zeroshot-video-question-answer-on-msvd-qaVILA1.5-40B
Accuracy: 80.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VILA:视觉语言模型预训练研究 | 论文 | HyperAI超神经