Command Palette

Search for a command to run...

1 个月前

计算即教师:将推理计算转化为无参考监督

Dulhan Jayalath Shashwat Goel Thomas Foster Parag Jain Suchin Gururangan et al

计算即教师:将推理计算转化为无参考监督

摘要

当训练后阶段缺乏真实标签(ground truth)时,学习信号究竟从何而来?我们提出通过“计算即教师”(Compute as Teacher, CaT)将探索过程转化为监督信号。该方法在推理阶段利用模型自身的探索行为,通过从一组并行轨迹(rollouts)中合成单一参考答案,进而引导模型向该参考优化,从而实现无需参考的监督。具体而言,当前策略生成一组轨迹;一个固定的锚点(即初始策略)通过调和这些轨迹中的遗漏与矛盾,估计出一个参考答案,从而将额外的推理阶段计算资源转化为教师信号。我们将这一机制在两种场景下转化为奖励:(i)对于可验证任务,采用程序等价性检验最终答案;(ii)对于不可验证任务,使用模型自提出的评分标准——即由独立大语言模型(LLM)评判的二元可审计标准,并根据满足标准的比例给予奖励。与传统选择方法(如最佳选择-N、多数投票、困惑度或裁判评分)不同,CaT的合成机制可能与多数意见相左,即使所有轨迹均错误,仍可能得出正确结果;且性能随轨迹数量的增加而持续提升。作为一种测试时(test-time)的处理方法,CaT显著提升了Gemma 3 4B、Qwen 3 4B和Llama 3.1 8B的表现(在MATH-500上最高提升27%,在HealthBench上最高提升12%)。结合强化学习(CaT-RL)后,性能进一步提升(最高达+33%和+30%),训练后的策略甚至超越了初始的教师信号。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供