6 个月前

摘要

尽管大型语言模型（LLMs）在各类任务中展现出令人瞩目的能力，但在涉及复杂推理与规划的场景中，其表现仍显不足。近期研究提出了一系列先进的提示工程（prompting）技术，并强调了使用高质量数据进行微调对提升LLM推理能力的必要性。然而，这些方法在本质上受限于数据的可获得性与质量。针对这一挑战，自我修正与自我学习成为具有潜力的解决方案，其通过使LLM能够根据自评估的奖励信号不断优化输出，实现持续学习。然而，LLM在复杂推理与规划任务中进行自我精炼的有效性仍存疑。本文提出AlphaLLM，一种用于LLM自我提升的框架，该框架将蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）与LLM相结合，构建了一个无需额外标注数据的自我改进闭环。受AlphaGo成功经验的启发，AlphaLLM有效应对了将MCTS与LLM结合以实现自我提升所面临的独特挑战，包括数据稀缺性、语言任务中搜索空间的巨大规模，以及语言任务反馈的主观性。AlphaLLM由三个核心组件构成：提示生成模块、专为语言任务设计的高效MCTS方法，以及一组三重批评者模型，用于提供精准的反馈。在数学推理任务上的实验结果表明，AlphaLLM在不引入额外标注数据的情况下，显著提升了LLM的性能，验证了LLM实现自我改进的可行性与潜力。

源 PDF