摘要

我们推出了Yi模型系列，这是一组具备强大多维能力的语言与多模态模型。Yi模型系列基于6B和34B参数量的预训练语言模型构建，并在此基础上拓展为对话模型、支持20万词长上下文的模型、深度增强型模型以及视觉-语言模型。我们的基础模型在多项基准测试中表现优异，例如MMLU；而经过微调的对话模型在AlpacaEval与Chatbot Arena等主流评估平台上的用户偏好评分也达到了高水平。基于我们可扩展的超算基础设施以及经典的Transformer架构，我们认为Yi模型的优异性能主要归因于高质量数据的积累，而这得益于我们在数据工程方面的系统性努力。在预训练阶段，我们通过级联式数据去重与质量过滤流程，构建了总计3.1万亿词元（tokens）的中英文语料库。在微调阶段，我们对一个规模较小（少于1万条）的指令数据集进行了多轮精细化打磨，确保每一条样本均由我们的机器学习工程师直接验证。在视觉-语言模型方面，我们将对话语言模型与视觉Transformer编码器相结合，训练模型实现视觉表征与语言模型语义空间的对齐。此外，我们通过轻量级持续预训练（lightweight continual pretraining）将模型上下文长度扩展至20万词，显著提升了“在 haystack 中找 needle”（即在长文本中精准定位关键信息）的检索能力。我们进一步证明，通过持续预训练扩展预训练检查点的深度，能够进一步提升模型性能。我们认为，基于当前成果，若持续采用经过充分优化的数据进行模型参数规模的扩展，将有望催生更强大的前沿模型。

源 PDF