3 个月前

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

摘要

自提升系统需要与环境持续互动以实现适应性进化。我们提出SPICE（Self-Play In Corpus Environments，语料库环境中的自对弈）框架，该框架采用单一模型承担两种角色：挑战者（Challenger）从大规模语料库中挖掘文档，生成多样化的推理任务；推理者（Reasoner）则负责解决这些任务。通过对抗性动态机制，挑战者在推理者能力边界处自动构建出持续进阶的学习课程，而语料库的约束则提供了丰富且近乎无穷的外部信号，支撑系统的持续优化。与现有缺乏语料约束的自对弈方法相比，SPICE在多个模型家族上均实现了稳定提升：在数学推理基准上提升8.9%，在通用推理基准上提升9.8%。我们的分析表明，文档约束是SPICE实现持续自我提升的关键要素——它能够不断生成日益复杂的任务目标，并最终达成这些目标，从而推动系统长期演进。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

摘要

自提升系统需要与环境持续互动以实现适应性进化。我们提出SPICE（Self-Play In Corpus Environments，语料库环境中的自对弈）框架，该框架采用单一模型承担两种角色：挑战者（Challenger）从大规模语料库中挖掘文档，生成多样化的推理任务；推理者（Reasoner）则负责解决这些任务。通过对抗性动态机制，挑战者在推理者能力边界处自动构建出持续进阶的学习课程，而语料库的约束则提供了丰富且近乎无穷的外部信号，支撑系统的持续优化。与现有缺乏语料约束的自对弈方法相比，SPICE在多个模型家族上均实现了稳定提升：在数学推理基准上提升8.9%，在通用推理基准上提升9.8%。我们的分析表明，文档约束是SPICE实现持续自我提升的关键要素——它能够不断生成日益复杂的任务目标，并最终达成这些目标，从而推动系统长期演进。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供