Command Palette
Search for a command to run...
面向奥数级数学问题求解的长时程推理Agent
面向奥数级数学问题求解的长时程推理Agent
Abstract
大规模语言模型(LLMs)在通过可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)解决复杂推理任务方面取得了显著进展。这一进步也离不开可靠验证器所实现的自动化监督机制。然而,当前基于结果的验证器(Outcome-based Verifiers, OVs)难以有效审查长链思维(Chain-of-Thought, CoT)中不可靠的中间推理步骤;与此同时,基于过程的验证器(Process-based Verifiers, PVs)在复杂且冗长的CoT中可靠检测错误方面仍面临挑战,其主要受限于高质量标注数据的稀缺性——由于人工标注成本高昂,难以获取足够规模的优质标注。为此,本文提出一种新型验证框架——基于结果的过程验证器(Outcome-based Process Verifier, OPV),该方法通过对长CoT所生成的摘要化结果进行推理过程验证,实现了高效且准确的验证能力,并支持大规模自动化标注。为提升OPV的验证性能,我们引入一种迭代式主动学习框架,结合专家标注,以较低的标注成本持续优化验证能力。具体而言,在每一轮迭代中,当前最优OPV预测中最不确定的样本由专家进行标注,随后利用这些标注数据通过拒绝微调(Rejection Fine-Tuning, RFT)与RLVR联合训练,生成下一轮的OPV模型。大量实验表明,OPV在性能与适用性方面均表现出显著优势。在我们预留的hisbench基准测试中,OPV取得了新的最先进水平,其F1分数达到83.1,显著优于更大规模的开源模型(如Qwen3-Max-Preview的76.3)。此外,OPV在合成数据集中能有效识别虚假正例,其判断结果与专家评估高度一致。当与策略模型协同使用时,OPV持续带来性能提升:例如,在AIME2025基准上,随着计算资源的增加,其将DeepSeek-R1-Distill-Qwen-32B的准确率从55.2%提升至73.3%。