HyperAIHyperAI

Command Palette

Search for a command to run...

SPICE:在语料库环境中进行自对弈提升推理能力

Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

Abstract

自提升系统需要与环境持续互动以实现适应性进化。我们提出SPICE(Self-Play In Corpus Environments,语料库环境中的自对弈)框架,该框架采用单一模型承担两种角色:挑战者(Challenger)从大规模语料库中挖掘文档,生成多样化的推理任务;推理者(Reasoner)则负责解决这些任务。通过对抗性动态机制,挑战者在推理者能力边界处自动构建出持续进阶的学习课程,而语料库的约束则提供了丰富且近乎无穷的外部信号,支撑系统的持续优化。与现有缺乏语料约束的自对弈方法相比,SPICE在多个模型家族上均实现了稳定提升:在数学推理基准上提升8.9%,在通用推理基准上提升9.8%。我们的分析表明,文档约束是SPICE实现持续自我提升的关键要素——它能够不断生成日益复杂的任务目标,并最终达成这些目标,从而推动系统长期演进。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SPICE:在语料库环境中进行自对弈提升推理能力 | Papers | HyperAI超神经