HyperAIHyperAI

Command Palette

Search for a command to run...

超越权衡:用于推理模型指令遵循的自监督强化学习

Qingyu Ren Qianyu He Bowei Zhang Jie Zeng Jiaqing Liang Yanghua Xiao Weikang Zhou Zeye Sun Fei Yu

Abstract

推理模型在复杂问题求解方面表现出色,但其推理能力与指令遵循能力之间存在令人担忧的权衡。现有提升指令遵循能力的方法依赖于更强的外部模型,这带来了方法论上的瓶颈以及实际应用中的诸多限制,包括成本上升和可访问性受限等问题。为此,我们提出一种自监督强化学习框架,利用推理模型自身的内部信号来提升指令遵循能力,无需外部监督。大量实验表明,该框架在保持原有推理性能的同时,显著提升了指令遵循能力,为增强推理模型的指令遵循能力提供了一种可扩展且成本低廉的解决方案。相关数据与代码已公开,获取地址为:https://github.com/Rainier-rq/verl-if


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供