HyperAIHyperAI

Command Palette

Search for a command to run...

组序列策略优化

Abstract

本文介绍了群体序列策略优化(Group Sequence Policy Optimization,GSPO),这是一种稳定、高效且性能优越的强化学习算法,用于训练大语言模型。与以往采用基于token的重要性比率的算法不同,GSPO基于序列似然性定义重要性比率,并进行序列级别的裁剪(clipping)、奖励(rewarding)和优化(optimization)。我们证明,与GRPO算法相比,GSPO在训练效率和性能方面表现出色,尤其在稳定混合专家(Mixture-of-Experts,MoE)强化学习训练方面效果显著,并有望简化强化学习基础设施的设计。GSPO的这些优势为最新版Qwen3模型带来了显著的性能提升。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
组序列策略优化 | Papers | HyperAI超神经