3 个月前

SPHINX-X:面向多模态大语言模型家族的数据与参数扩展

SPHINX-X:面向多模态大语言模型家族的数据与参数扩展

摘要

我们提出SPHINX-X,这是一个基于SPHINX架构构建的大型多模态语言模型(MLLM)系列。为提升模型架构设计与训练效率,我们对SPHINX框架进行了优化:移除了冗余的视觉编码器,通过跳过标记(skip tokens)绕过全填充的子图像,同时将多阶段训练简化为统一的一阶段端到端训练范式。为充分挖掘MLLM的潜力,我们构建了一个覆盖多领域、多模态的综合性数据集,整合了公开可用的语言、视觉及视觉-语言任务资源。此外,我们还引入了精心筛选的OCR密集型数据集与集合标记(Set-of-Mark)数据集,进一步增强了数据集的多样性与泛化能力。通过在多种基础大语言模型(包括TinyLlama-1.1B、InternLM2-7B、LLaMA2-13B以及Mixtral-8x7B)上进行训练,我们获得了参数规模与多语言能力各不相同的多模态模型系列。全面的基准测试表明,多模态性能与数据规模及模型参数规模之间存在显著正相关关系。代码与模型已开源,地址为:https://github.com/Alpha-VLLM/LLaMA2-Accessory。

代码仓库

基准测试

基准方法指标
video-question-answering-on-mvbenchSPHINX-Plus
Avg.: 39.7
visual-question-answering-on-mm-vetSPHINX-Plus
GPT-4 score: 47.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SPHINX-X:面向多模态大语言模型家族的数据与参数扩展 | 论文 | HyperAI超神经