3 个月前

AlphaMath 几乎为零:无需过程的流程监督

AlphaMath 几乎为零:无需过程的流程监督

摘要

尽管近年来大型语言模型(LLMs)在各类任务上的表现取得了显著提升,但在处理复杂且涉及符号的多步推理任务,尤其是数学推理方面,仍面临挑战。为增强LLMs的数学推理能力,现有大多数方法依赖于领域专家或GPT-4提供高质量的过程监督数据,但此类方式不仅成本高昂,而且高度依赖人工,难以规模化。在本研究中,我们提出了一种创新框架——AlphaMath,该框架通过引入蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS),彻底规避了对人工或GPT生成的过程标注的依赖。该框架致力于激发预训练良好的LLM在数学推理方面的自主提升潜力。具体而言,我们结合了一个价值模型(value model)与LLM,在MCTS过程中自动生成过程监督信号与逐步骤的评估信号。此外,我们设计了一种高效的推理策略——逐步束搜索(step-level beam search),其中价值模型被用于引导策略模型(即LLM)探索更有效的推理路径,而非仅依赖先验概率。在域内与域外数据集上的实验结果表明,即使不依赖GPT-4或人工标注的过程监督,AlphaMath框架仍能达到与先前最先进方法相当甚至更优的性能。

代码仓库

MARIO-Math-Reasoning/Super_MARIO
官方
GitHub 中提及

基准测试

基准方法指标
math-word-problem-solving-on-mathAlphaMath-7B-SBS@3
Accuracy: 66.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AlphaMath 几乎为零:无需过程的流程监督 | 论文 | HyperAI超神经