3 个月前

通过想象、搜索与批判实现LLM的自我改进

通过想象、搜索与批判实现LLM的自我改进

摘要

尽管大型语言模型(Large Language Models, LLMs)在各类任务中展现出令人瞩目的能力,但在涉及复杂推理与规划的场景中仍面临显著挑战。近期研究提出采用先进的提示工程技术,并结合高质量数据进行微调,以增强LLMs的推理能力。然而,这些方法在本质上受限于数据的可获得性与质量。在此背景下,自我修正与自我学习成为具有前景的解决方案,其通过使LLMs能够基于自我评估的奖励信号不断优化输出,实现持续改进。然而,LLMs在复杂推理与规划任务中进行自我精炼的有效性仍存疑。本文提出AlphaLLM,一种面向LLMs自我提升的框架,该框架将蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与LLMs相结合,构建了一个无需额外标注数据的自我增强循环。受AlphaGo成功经验的启发,AlphaLLM针对LLM与MCTS融合过程中所面临的独特挑战——包括数据稀缺性、语言任务搜索空间的庞大性,以及语言任务反馈的主观性——提出了系统性应对策略。AlphaLLM由三个核心组件构成:提示生成模块、专为语言任务设计的高效MCTS方法,以及一组三重批判模型,用于提供精准反馈。在数学推理任务上的实验结果表明,AlphaLLM能够在不引入额外标注数据的前提下,显著提升LLMs的性能,充分展现了LLMs实现自我改进的巨大潜力。

代码仓库

yetianjhu/alphallm
官方
pytorch

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kAlphaLLM (with MCTS)
Accuracy: 92
Parameters (Billion): 70
gsm8k-on-gsm8kAlphaLLM (with MCTS)
Accuracy: 92
math-word-problem-solving-on-mathAlphaLLM (with MCTS)
Accuracy: 51

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过想象、搜索与批判实现LLM的自我改进 | 论文 | HyperAI超神经