摘要

近年来，针对基础模型的强化学习方法取得了显著进展，例如群体相对策略优化（Group Relative Policy Optimization, GRPO），显著提升了基础模型在推理任务上的表现。值得注意的是，GRPO 中的优势函数作为核心机制，用于对轨迹的重要性进行排序。然而，现有方法在实践中面临优势反转和优势镜像等问题，导致在不同查询样本之间难以实现合理的优势分配。针对这一问题，本文提出了一种简单但高效的GRPO改进策略——混合优势策略优化（Mixed Advantage Policy Optimization, MAPO）。我们发现，不同轨迹具有不同的确定性，并针对高确定性轨迹的样本提出了“优势百分比偏差”概念。此外，我们对具有不同轨迹确定性的样本动态重加权优势函数，从而自适应地调整优势函数，以充分考虑样本特异性。与现有先进方法的对比实验，以及对多种优势函数变体的消融研究，充分验证了所提方法的有效性。

源 PDF