3 个月前

Taekhyun Park Yongjae Lee Hyerim Bae

摘要

基于强化学习（RL）的后训练方法在提升大模型推理能力（Large Reasoning Models, LRMs）的多步推理能力方面起到了关键作用，然而当前的奖励机制通常以结果为导向。为此，我们提出PM4GRPO——一种面向推理过程的分组相对策略优化（Group Relative Policy Optimization, GRPO）方法，该方法在标准答案与格式奖励的基础上，引入了对推理过程的信号增强。具体而言，通过采用流程挖掘技术，计算一个标量的符合度奖励，用以衡量策略模型的推理过程与预训练教师模型之间的相似程度。在五个基准测试上的实证结果表明，PM4GRPO显著优于现有的基于GRPO的后训练方法。这些结果表明，利用流程挖掘技术实现面向推理过程的GRPO，能够有效提升策略模型的推理能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Taekhyun Park Yongjae Lee Hyerim Bae

摘要

基于强化学习（RL）的后训练方法在提升大模型推理能力（Large Reasoning Models, LRMs）的多步推理能力方面起到了关键作用，然而当前的奖励机制通常以结果为导向。为此，我们提出PM4GRPO——一种面向推理过程的分组相对策略优化（Group Relative Policy Optimization, GRPO）方法，该方法在标准答案与格式奖励的基础上，引入了对推理过程的信号增强。具体而言，通过采用流程挖掘技术，计算一个标量的符合度奖励，用以衡量策略模型的推理过程与预训练教师模型之间的相似程度。在五个基准测试上的实证结果表明，PM4GRPO显著优于现有的基于GRPO的后训练方法。这些结果表明，利用流程挖掘技术实现面向推理过程的GRPO，能够有效提升策略模型的推理能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供