Command Palette
Search for a command to run...
Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

摘要
近年来,大型语言模型(LLMs)的研究进展表明,通过基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR),其推理能力可得到显著提升,尤其在数学和编程等领域的表现尤为突出,因为这些领域的真实答案可被自动验证。然而,将这一成功推广至其他高推理强度的领域仍面临挑战,主要受限于高质量、可验证数据集的稀缺性以及人工标注成本高昂的问题。为此,本文提出Loong项目:一个面向多样化推理密集型领域的开源可扩展合成数据生成与验证框架。该框架包含两个核心组件:(1)LoongBench,一个经过人工筛选的种子数据集,涵盖12个领域(如高等数学、化学、逻辑推理等),共包含8,729个经人工验证的样本,每个样本均配有可执行代码和丰富的元数据;(2)LoongEnv,一个模块化的合成数据生成环境,支持多种提示策略,用于生成新的问题-答案-代码三元组。这两个组件共同构成一个智能体-环境循环系统,支持强化学习机制:基于大语言模型的智能体在生成与代码执行结果一致的思维链(Chain-of-Thought, CoT)解题过程时获得奖励。在实证研究中,我们在一系列开源与专有大型语言模型上对LoongBench进行了广泛基准测试,评估其领域覆盖能力并揭示模型性能瓶颈。此外,我们还对LoongEnv生成的合成数据进行了全面分析,系统考察了其正确性、难度分布与多样性特征。