
摘要
数学推理仍然是大型语言模型(LLM)开发中的一个关键挑战,引起了广泛的关注。然而,由于缺乏训练数据的访问权限,大多数在数学推理方面取得的前沿进展已经变得\emph{闭源}。这种数据访问权限的缺失限制了研究人员对不同数据合成和利用方法选择的影响进行深入理解。为了创建一个高质量的微调(SFT)数据集以用于数学推理,我们使用最近发布的\texttt{Llama3.1}模型家族进行了仔细的数据合成消融实验。实验结果表明:(a) 解决方案格式至关重要,过于冗长的解决方案会对SFT性能产生负面影响;(b) 强教师生成的数据优于弱学生模型生成的同等规模数据;(c) SFT对低质量解决方案具有较强的鲁棒性,允许进行不精确的数据过滤;(d) 问题多样性对于实现数据规模增益至关重要。基于这些见解,我们创建了OpenMathInstruct-2数据集,该数据集包含1400万个问题-解决方案对(约60万个独特问题),其规模几乎是之前最大的开源数学推理数据集的八倍。使用OpenMathInstruct-2对\texttt{Llama-3.1-8B-Base}进行微调,在MATH测试中比\texttt{Llama3.1-8B-Instruct}绝对提高了15.9%(从51.9%提高到67.8%)。最后,为了加速开源工作的发展,我们在商业许可下发布了代码、微调后的模型以及OpenMathInstruct-2数据集。
代码仓库
NVIDIA/NeMo-Skills
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| arithmetic-reasoning-on-gsm8k | OpenMath2-Llama3.1-70B | Accuracy: 94.9 |
| arithmetic-reasoning-on-gsm8k | OpenMath2-Llama3.1-70B (majority@256) | Accuracy: 96.0 |
| arithmetic-reasoning-on-gsm8k | OpenMath2-Llama3.1-8B | Accuracy: 91.7 |
| arithmetic-reasoning-on-gsm8k | OpenMath2-Llama3.1-8B (majority@256) | Accuracy: 94.1 |
| math-word-problem-solving-on-math | OpenMath2-Llama3.1-8B | Accuracy: 67.8 |
| math-word-problem-solving-on-math | OpenMath2-Llama3.1-8B (majority@256) | Accuracy: 76.1 |
| math-word-problem-solving-on-math | OpenMath2-Llama3.1-70B (majority@256) | Accuracy: 79.6 |
| math-word-problem-solving-on-math | OpenMath2-Llama3.1-70B | Accuracy: 71.9 |