4 个月前

《教材就是全部 II:phi-1.5 技术报告》

《教材就是全部 II:phi-1.5 技术报告》

摘要

我们继续对小型基于Transformer的语言模型的能力进行研究,这一研究始于TinyStories——一个拥有1000万参数且能生成连贯英语的模型——以及后续关于phi-1的工作,该模型拥有13亿参数,其Python编程性能接近当前最佳水平。后者提出利用现有的大型语言模型(LLMs)生成“教科书质量”的数据,以增强学习过程,相比传统的网络数据更为有效。我们沿用了“教科书就是你所需要的”(Textbooks Are All You Need)方法,这次专注于自然语言中的常识推理,并创建了一个新的13亿参数模型,命名为phi-1.5。该模型在自然语言任务上的表现与比其大五倍的模型相当,并在更复杂的推理任务如小学数学和基础编程方面超越了大多数非前沿的大型语言模型(LLMs)。总体而言,phi-1.5 展现了许多更大规模LLMs的特征,包括好的方面——例如能够“逐步思考”或进行某些初步的上下文学习——以及不好的方面——包括幻觉和潜在的有毒及偏见生成——尽管如此,由于没有使用网络数据,我们在这些方面看到了改进。我们开源了 phi-1.5 以促进对这些紧迫问题的进一步研究。

代码仓库

基准测试

基准方法指标
code-generation-on-mbppphi-1.5-web 1.3B
Accuracy: 43.5
common-sense-reasoning-on-arc-challengephi-1.5-web 1.3B (zero-shot)
Accuracy: 44.9
common-sense-reasoning-on-arc-easyphi-1.5-web 1.3B (0-shot)
Accuracy: 76.1
common-sense-reasoning-on-winograndephi-1.5-web 1.3B (zero-shot)
Accuracy: 74.0
multi-task-language-understanding-on-mmluphi-1.5-web 1.3B
Average (%): 37.9
question-answering-on-piqaphi-1.5-web (1.3B)
Accuracy: 77
question-answering-on-social-iqaphi-1.5 1.3B (zero-shot)
Accuracy: 52.6
question-answering-on-social-iqaphi-1.5-web 1.3B (zero-shot)
Accuracy: 53.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
《教材就是全部 II:phi-1.5 技术报告》 | 论文 | HyperAI超神经