3 个月前

让我们逐步验证

让我们逐步验证

摘要

近年来,大型语言模型在执行复杂多步推理任务方面取得了显著进步。然而,即便是最先进的模型,仍频繁出现逻辑错误。为了训练出更加可靠的模型,我们可以采用两种监督方式:结果监督(outcome supervision),即仅对最终结果提供反馈;或过程监督(process supervision),即对每个中间推理步骤均提供反馈。鉴于训练可靠模型的重要性,以及人工反馈成本高昂,因此有必要对这两种方法进行审慎比较。尽管已有研究初步开展了此类对比,但许多关键问题仍未解决。本文开展了独立研究,发现对于训练模型解决具有挑战性的MATH数据集中的问题而言,过程监督显著优于结果监督。我们基于过程监督训练的模型在MATH测试集的一个代表性子集上成功解决了78%的问题。此外,我们还证明了主动学习(active learning)能显著提升过程监督的效率。为支持相关研究,我们还发布了PRM800K数据集——该数据集包含80万条用于训练最优奖励模型的、细粒度的步骤级人工反馈标签,完整公开以供学术界使用。

代码仓库

consequentai/fneval
GitHub 中提及
openai/prm800k
官方
GitHub 中提及
gentopia-ai/gentopia
GitHub 中提及

基准测试

基准方法指标
math-word-problem-solving-on-math-minivalProcess Supervision (GPT-4)
Accuracy: 78.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
让我们逐步验证 | 论文 | HyperAI超神经