6 个月前

摘要

尽管近年来大型语言模型（LLMs）在各类任务上的表现取得了显著提升，但在处理复杂且涉及符号的多步推理任务，尤其是数学推理方面，仍面临挑战。为增强LLMs的数学推理能力，现有大多数方法依赖于领域专家或GPT-4提供高质量的过程监督数据，但此类方式不仅成本高昂，而且高度依赖人工，难以规模化。在本研究中，我们提出了一种创新框架——AlphaMath，该框架通过引入蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS），彻底规避了对人工或GPT生成的过程标注的依赖。该框架致力于激发预训练良好的LLM在数学推理方面的自主提升潜力。具体而言，我们结合了一个价值模型（value model）与LLM，在MCTS过程中自动生成过程监督信号与逐步骤的评估信号。此外，我们设计了一种高效的推理策略——逐步束搜索（step-level beam search），其中价值模型被用于引导策略模型（即LLM）探索更有效的推理路径，而非仅依赖先验概率。在域内与域外数据集上的实验结果表明，即使不依赖GPT-4或人工标注的过程监督，AlphaMath框架仍能达到与先前最先进方法相当甚至更优的性能。

源 PDF