
摘要
我们继续对小型基于Transformer的语言模型的能力进行研究,这一研究始于TinyStories——一个拥有1000万参数且能生成连贯英语的模型——以及后续关于phi-1的工作,该模型拥有13亿参数,其Python编程性能接近当前最佳水平。后者提出利用现有的大型语言模型(LLMs)生成“教科书质量”的数据,以增强学习过程,相比传统的网络数据更为有效。我们沿用了“教科书就是你所需要的”(Textbooks Are All You Need)方法,这次专注于自然语言中的常识推理,并创建了一个新的13亿参数模型,命名为phi-1.5。该模型在自然语言任务上的表现与比其大五倍的模型相当,并在更复杂的推理任务如小学数学和基础编程方面超越了大多数非前沿的大型语言模型(LLMs)。总体而言,phi-1.5 展现了许多更大规模LLMs的特征,包括好的方面——例如能够“逐步思考”或进行某些初步的上下文学习——以及不好的方面——包括幻觉和潜在的有毒及偏见生成——尽管如此,由于没有使用网络数据,我们在这些方面看到了改进。我们开源了 phi-1.5 以促进对这些紧迫问题的进一步研究。
代码仓库
knowlab/bi-weekly-paper-presentation
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| code-generation-on-mbpp | phi-1.5-web 1.3B | Accuracy: 43.5 |
| common-sense-reasoning-on-arc-challenge | phi-1.5-web 1.3B (zero-shot) | Accuracy: 44.9 |
| common-sense-reasoning-on-arc-easy | phi-1.5-web 1.3B (0-shot) | Accuracy: 76.1 |
| common-sense-reasoning-on-winogrande | phi-1.5-web 1.3B (zero-shot) | Accuracy: 74.0 |
| multi-task-language-understanding-on-mmlu | phi-1.5-web 1.3B | Average (%): 37.9 |
| question-answering-on-piqa | phi-1.5-web (1.3B) | Accuracy: 77 |
| question-answering-on-social-iqa | phi-1.5 1.3B (zero-shot) | Accuracy: 52.6 |
| question-answering-on-social-iqa | phi-1.5-web 1.3B (zero-shot) | Accuracy: 53.0 |