5 个月前

Xuekai Zhu Daixuan Cheng Dinghuai Zhang Hengli Li Kaiyan Zhang Che Jiang Youbang Sun Ermo Hua Yuxin Zuo Xingtai Lv

摘要

我们提出 FlowRL：通过流平衡（flow balancing）匹配完整的奖励分布，而非在大型语言模型（LLM）强化学习（RL）中单纯最大化奖励。近期先进的推理模型普遍采用奖励最大化方法（如 PPO 和 GRPO），这类方法往往过度优化主导的奖励信号，而忽视了那些出现频率较低但同样有效的推理路径，从而导致推理多样性下降。相比之下，我们引入一个可学习的分区函数，将标量奖励转化为归一化的目标分布，并最小化策略分布与目标分布之间的反向 KL 散度。我们据此实现了一种流平衡优化方法，能够促进多样化的探索以及更具泛化能力的推理轨迹。我们在数学和代码推理任务上进行了实验：在数学基准测试中，FlowRL 相较于 GRPO 提升了 10.0% 的平均性能，相较于 PPO 提升了 5.1%；在代码推理任务上也表现出持续更优的性能。这些结果表明，奖励分布匹配是实现高效探索与多样化推理的关键一步，对 LLM 强化学习具有重要意义。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Xuekai Zhu Daixuan Cheng Dinghuai Zhang Hengli Li Kaiyan Zhang Che Jiang Youbang Sun Ermo Hua Yuxin Zuo Xingtai Lv

摘要

我们提出 FlowRL：通过流平衡（flow balancing）匹配完整的奖励分布，而非在大型语言模型（LLM）强化学习（RL）中单纯最大化奖励。近期先进的推理模型普遍采用奖励最大化方法（如 PPO 和 GRPO），这类方法往往过度优化主导的奖励信号，而忽视了那些出现频率较低但同样有效的推理路径，从而导致推理多样性下降。相比之下，我们引入一个可学习的分区函数，将标量奖励转化为归一化的目标分布，并最小化策略分布与目标分布之间的反向 KL 散度。我们据此实现了一种流平衡优化方法，能够促进多样化的探索以及更具泛化能力的推理轨迹。我们在数学和代码推理任务上进行了实验：在数学基准测试中，FlowRL 相较于 GRPO 提升了 10.0% 的平均性能，相较于 PPO 提升了 5.1%；在代码推理任务上也表现出持续更优的性能。这些结果表明，奖励分布匹配是实现高效探索与多样化推理的关键一步，对 LLM 强化学习具有重要意义。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供