
摘要
尽管近年来大型语言模型(LLMs)在各类任务上的表现取得了显著提升,但在处理复杂且涉及符号的多步推理任务,尤其是数学推理方面,仍面临挑战。为增强LLMs的数学推理能力,现有大多数方法依赖于领域专家或GPT-4提供高质量的过程监督数据,但此类方式不仅成本高昂,而且高度依赖人工,难以规模化。在本研究中,我们提出了一种创新框架——AlphaMath,该框架通过引入蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS),彻底规避了对人工或GPT生成的过程标注的依赖。该框架致力于激发预训练良好的LLM在数学推理方面的自主提升潜力。具体而言,我们结合了一个价值模型(value model)与LLM,在MCTS过程中自动生成过程监督信号与逐步骤的评估信号。此外,我们设计了一种高效的推理策略——逐步束搜索(step-level beam search),其中价值模型被用于引导策略模型(即LLM)探索更有效的推理路径,而非仅依赖先验概率。在域内与域外数据集上的实验结果表明,即使不依赖GPT-4或人工标注的过程监督,AlphaMath框架仍能达到与先前最先进方法相当甚至更优的性能。
代码仓库
MARIO-Math-Reasoning/Super_MARIO
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| math-word-problem-solving-on-math | AlphaMath-7B-SBS@3 | Accuracy: 66.3 |