摘要

我们提出MM1.5，这是一个新型多模态大语言模型（MLLM）系列，旨在提升在文本密集型图像理解、视觉指代与定位以及多图像推理方面的能力。基于MM1架构，MM1.5采用以数据为中心的模型训练方法，系统性地探索了在模型训练全生命周期中不同数据组合的影响。这包括用于持续预训练的高质量OCR数据和合成描述文本，以及为监督微调优化的视觉指令微调数据组合。我们的模型参数规模从10亿（1B）到300亿（30B）不等，涵盖密集参数模型和专家混合（Mixture-of-Experts, MoE）两种变体，并表明即使在小规模（1B和3B）下，通过精心的数据筛选与训练策略，也能实现优异的性能。此外，我们还推出了两个专用变体：MM1.5-Video，专为视频理解设计；MM1.5-UI，针对移动用户界面（UI）理解进行优化。通过广泛的实证研究与消融实验，我们深入剖析了训练过程与关键决策，为未来多模态大语言模型的开发提供了宝贵的经验与指导。

源 PDF