An YangBeichen ZhangBinyuan HuiBofei GaoBowen YuChengpeng LiDayiheng LiuJianhong TuJingren ZhouJunyang LinKeming LuMingfeng XueRunji LinTianyu LiuXingzhang RenZhenru Zhang

摘要
在本报告中,我们推出了一系列专为数学任务优化的大语言模型:Qwen2.5-Math 以及 Qwen2.5-Math-Instruct-1.5B/7B/72B。Qwen2.5 系列的核心创新在于将“自我提升”理念贯穿于模型从预训练、后训练到推理的全流程之中:(1)在预训练阶段,我们利用 Qwen2-Math-Instruct 生成大规模、高质量的数学数据;(2)在后训练阶段,我们通过从 Qwen2-Math-Instruct 中进行大规模采样,构建了一个奖励模型(Reward Model, RM),并将其应用于监督微调(Supervised Fine-Tuning, SFT)过程中的数据迭代演化。随着 SFT 模型性能的增强,我们可进一步迭代训练并更新 RM,从而引导下一阶段 SFT 数据的优化。最终,在完成 SFT 的模型基础上,我们采用最终版 RM 进行强化学习,得到 Qwen2.5-Math-Instruct 模型;(3)此外,在推理阶段,该 RM 被用于指导采样过程,进一步优化模型的输出表现。Qwen2.5-Math-Instruct 支持中英文双语,具备先进的数学推理能力,包括思维链(Chain-of-Thought, CoT)与工具融合推理(Tool-Integrated Reasoning, TIR)等关键技术。我们在涵盖中英文的10个数学基准数据集上对模型进行了全面评估,包括 GSM8K、MATH、高考数学(GaoKao)、AMC23 以及 AIME24 等,覆盖从小学水平到数学竞赛级难题的广泛难度范围。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| math-word-problem-solving-on-math | Qwen2.5-Math-7B-Instruct(COT,Greedy) | Accuracy: 83.6 Parameters (Billions): 7 |
| math-word-problem-solving-on-math | Qwen2.5-Math-7B-Instruct(TIR,Greedy) | Accuracy: 85.2 Parameters (Billions): 7 |
| math-word-problem-solving-on-math | Qwen2.5-Math-72B-Instruct(TIR,Greedy) | Accuracy: 88.1 Parameters (Billions): 72 |
| math-word-problem-solving-on-math | Qwen2.5-Math-1.5B-Instruct(COT,Greedy) | Accuracy: 75.8 Parameters (Billions): 1.5 |
| math-word-problem-solving-on-math | Qwen2.5-Math-72B-Instruct(COT,Greedy) | Accuracy: 85.9 Parameters (Billions): 72 |
| math-word-problem-solving-on-math | Qwen2.5-Math-1.5B-Instruct(TIR,Greedy) | Accuracy: 79.9 Parameters (Billions): 1.5 |
| mathematical-reasoning-on-amc23 | Qwen2.5-Math-7B-instruct | Acc: 62.5 |