摘要

我们提出 Llemma，这是一个专为数学任务设计的大规模语言模型。我们在 Proof-Pile-2 数据集上继续预训练 Code Llama 模型，该数据集融合了科学论文、包含数学内容的网络数据以及数学代码，从而得到 Llemma。在 MATH 基准测试中，Llemma 在同等参数规模下超越了所有已知的开源基础模型，甚至优于尚未发布的 Minerva 模型系列。此外，Llemma 无需任何额外微调即可实现工具调用和形式化定理证明能力。我们已公开发布所有相关成果，包括 70 亿和 340 亿参数版本的模型、Proof-Pile-2 数据集，以及复现实验的完整代码。

源 PDF