3 个月前

Yi:01.AI 发布的开源基础模型

Yi:01.AI 发布的开源基础模型

摘要

我们推出了Yi模型系列,这是一组具备强大多维能力的语言与多模态模型。Yi模型系列基于6B和34B参数量的预训练语言模型构建,并在此基础上拓展为对话模型、支持20万词长上下文的模型、深度增强型模型以及视觉-语言模型。我们的基础模型在多项基准测试中表现优异,例如MMLU;而经过微调的对话模型在AlpacaEval与Chatbot Arena等主流评估平台上的用户偏好评分也达到了高水平。基于我们可扩展的超算基础设施以及经典的Transformer架构,我们认为Yi模型的优异性能主要归因于高质量数据的积累,而这得益于我们在数据工程方面的系统性努力。在预训练阶段,我们通过级联式数据去重与质量过滤流程,构建了总计3.1万亿词元(tokens)的中英文语料库。在微调阶段,我们对一个规模较小(少于1万条)的指令数据集进行了多轮精细化打磨,确保每一条样本均由我们的机器学习工程师直接验证。在视觉-语言模型方面,我们将对话语言模型与视觉Transformer编码器相结合,训练模型实现视觉表征与语言模型语义空间的对齐。此外,我们通过轻量级持续预训练(lightweight continual pretraining)将模型上下文长度扩展至20万词,显著提升了“在 haystack 中找 needle”(即在长文本中精准定位关键信息)的检索能力。我们进一步证明,通过持续预训练扩展预训练检查点的深度,能够进一步提升模型性能。我们认为,基于当前成果,若持续采用经过充分优化的数据进行模型参数规模的扩展,将有望催生更强大的前沿模型。

代码仓库

01-ai/yi
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
chatbot-on-alpacaevalYi 34B Chat
Average win rate: 27.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Yi:01.AI 发布的开源基础模型 | 论文 | HyperAI超神经