3 个月前

Qwen2.5-Math 技术报告:通过自我改进迈向数学专家模型

Qwen2.5-Math 技术报告:通过自我改进迈向数学专家模型

摘要

在本报告中,我们推出了一系列专为数学任务优化的大语言模型:Qwen2.5-Math 以及 Qwen2.5-Math-Instruct-1.5B/7B/72B。Qwen2.5 系列的核心创新在于将“自我提升”理念贯穿于模型从预训练、后训练到推理的全流程之中:(1)在预训练阶段,我们利用 Qwen2-Math-Instruct 生成大规模、高质量的数学数据;(2)在后训练阶段,我们通过从 Qwen2-Math-Instruct 中进行大规模采样,构建了一个奖励模型(Reward Model, RM),并将其应用于监督微调(Supervised Fine-Tuning, SFT)过程中的数据迭代演化。随着 SFT 模型性能的增强,我们可进一步迭代训练并更新 RM,从而引导下一阶段 SFT 数据的优化。最终,在完成 SFT 的模型基础上,我们采用最终版 RM 进行强化学习,得到 Qwen2.5-Math-Instruct 模型;(3)此外,在推理阶段,该 RM 被用于指导采样过程,进一步优化模型的输出表现。Qwen2.5-Math-Instruct 支持中英文双语,具备先进的数学推理能力,包括思维链(Chain-of-Thought, CoT)与工具融合推理(Tool-Integrated Reasoning, TIR)等关键技术。我们在涵盖中英文的10个数学基准数据集上对模型进行了全面评估,包括 GSM8K、MATH、高考数学(GaoKao)、AMC23 以及 AIME24 等,覆盖从小学水平到数学竞赛级难题的广泛难度范围。

基准测试

基准方法指标
math-word-problem-solving-on-mathQwen2.5-Math-7B-Instruct(COT,Greedy)
Accuracy: 83.6
Parameters (Billions): 7
math-word-problem-solving-on-mathQwen2.5-Math-7B-Instruct(TIR,Greedy)
Accuracy: 85.2
Parameters (Billions): 7
math-word-problem-solving-on-mathQwen2.5-Math-72B-Instruct(TIR,Greedy)
Accuracy: 88.1
Parameters (Billions): 72
math-word-problem-solving-on-mathQwen2.5-Math-1.5B-Instruct(COT,Greedy)
Accuracy: 75.8
Parameters (Billions): 1.5
math-word-problem-solving-on-mathQwen2.5-Math-72B-Instruct(COT,Greedy)
Accuracy: 85.9
Parameters (Billions): 72
math-word-problem-solving-on-mathQwen2.5-Math-1.5B-Instruct(TIR,Greedy)
Accuracy: 79.9
Parameters (Billions): 1.5
mathematical-reasoning-on-amc23Qwen2.5-Math-7B-instruct
Acc: 62.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Qwen2.5-Math 技术报告:通过自我改进迈向数学专家模型 | 论文 | HyperAI超神经