HyperAIHyperAI

Command Palette

Search for a command to run...

基于流程挖掘的推理感知GRPO

Taekhyun Park Yongjae Lee Hyerim Bae

Abstract

基于强化学习(RL)的后训练方法在提升大模型推理能力(Large Reasoning Models, LRMs)的多步推理能力方面起到了关键作用,然而当前的奖励机制通常以结果为导向。为此,我们提出PM4GRPO——一种面向推理过程的分组相对策略优化(Group Relative Policy Optimization, GRPO)方法,该方法在标准答案与格式奖励的基础上,引入了对推理过程的信号增强。具体而言,通过采用流程挖掘技术,计算一个标量的符合度奖励,用以衡量策略模型的推理过程与预训练教师模型之间的相似程度。在五个基准测试上的实证结果表明,PM4GRPO显著优于现有的基于GRPO的后训练方法。这些结果表明,利用流程挖掘技术实现面向推理过程的GRPO,能够有效提升策略模型的推理能力。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于流程挖掘的推理感知GRPO | Papers | HyperAI超神经