Zhangir AzerbayevHailey SchoelkopfKeiran PasterMarco Dos SantosStephen McAleerAlbert Q. JiangJia DengStella BidermanSean Welleck

摘要
我们提出 Llemma,这是一个专为数学任务设计的大规模语言模型。我们在 Proof-Pile-2 数据集上继续预训练 Code Llama 模型,该数据集融合了科学论文、包含数学内容的网络数据以及数学代码,从而得到 Llemma。在 MATH 基准测试中,Llemma 在同等参数规模下超越了所有已知的开源基础模型,甚至优于尚未发布的 Minerva 模型系列。此外,Llemma 无需任何额外微调即可实现工具调用和形式化定理证明能力。我们已公开发布所有相关成果,包括 70 亿和 340 亿参数版本的模型、Proof-Pile-2 数据集,以及复现实验的完整代码。
代码仓库
eleutherai/gpt-neox
官方
pytorch
GitHub 中提及
wellecks/llemma_formal2formal
GitHub 中提及
EleutherAI/math-lm
官方
GitHub 中提及
wellecks/llmstep
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| arithmetic-reasoning-on-gsm8k | Llemma 7B | Accuracy: 36.4 Parameters (Billion): 7 |
| arithmetic-reasoning-on-gsm8k | Llemma 34B | Accuracy: 51.5 Parameters (Billion): 34 |
| automated-theorem-proving-on-minif2f-test | LLEMMA-7b | ITP: Lean Pass@32: 26.2 cumulative: 26.2 |
| automated-theorem-proving-on-minif2f-test | LLEMMA-34b | ITP: Lean Pass@32: 25.8 cumulative: 25.8 |