Weijie YinYongjie YeFangxun ShuYue LiaoZijian KangHongyuan DongHaiyang YuDingkang YangJiacong WangHan WangWenzhuo LiuXiao LiangShuicheng YanChao Feng

摘要
我们提出SAIL-VL2,这是一个面向全面多模态理解与推理的开源视觉语言基础模型(LVM)。作为SAIL-VL的继任者,SAIL-VL2在2B和8B参数规模下,于多样化的图像与视频基准测试中均达到当前最优性能,展现出从细粒度感知到复杂推理的强劲能力。其卓越表现主要得益于三项核心创新。首先,我们构建了一个大规模数据筛选与优化流程,结合评分与过滤策略,显著提升了图像描述、OCR、问答(QA)及视频数据在质量与分布上的均衡性,从而有效提升训练效率。其次,提出一种渐进式训练框架:从强大的预训练视觉编码器(SAIL-ViT)出发,经历多模态预训练阶段,最终融合“思维融合”式SFT-RL混合范式,系统性地增强模型能力。第三,架构层面实现突破,不仅支持密集型大语言模型(LLM),更引入高效的稀疏专家混合(Mixture-of-Experts, MoE)设计,兼顾性能与计算效率。得益于上述贡献,SAIL-VL2在106个数据集上展现出具有竞争力的综合表现,并在MMMU与MathVista等高难度推理基准上取得领先成果。此外,在OpenCompass排行榜上,SAIL-VL2-2B在4B参数规模的开源模型中位列第一,同时为开源多模态社区提供了一个高效、可扩展的基础模型平台。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| optical-character-recognition-on-ocrbench-v2-chinese | SAIL-VL2-8B | Accuracy: 57.6 |
| optical-character-recognition-on-ocrbench-v2-english | SAIL-VL2-8B | Accuracy: 49.3 |