HyperAIHyperAI

Command Palette

Search for a command to run...

MAPO:混合优势策略优化

Abstract

近年来,针对基础模型的强化学习方法取得了显著进展,例如群体相对策略优化(Group Relative Policy Optimization, GRPO),显著提升了基础模型在推理任务上的表现。值得注意的是,GRPO 中的优势函数作为核心机制,用于对轨迹的重要性进行排序。然而,现有方法在实践中面临优势反转和优势镜像等问题,导致在不同查询样本之间难以实现合理的优势分配。针对这一问题,本文提出了一种简单但高效的GRPO改进策略——混合优势策略优化(Mixed Advantage Policy Optimization, MAPO)。我们发现,不同轨迹具有不同的确定性,并针对高确定性轨迹的样本提出了“优势百分比偏差”概念。此外,我们对具有不同轨迹确定性的样本动态重加权优势函数,从而自适应地调整优势函数,以充分考虑样本特异性。与现有先进方法的对比实验,以及对多种优势函数变体的消融研究,充分验证了所提方法的有效性。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MAPO:混合优势策略优化 | Papers | HyperAI超神经