HyperAIHyperAI

Command Palette

Search for a command to run...

推理何时才重要?一项关于推理对模型性能贡献的受控研究

Nicolas Boizard Hippolyte Gisserot-Boukhlef Kevin El-Haddad Céline Hudelot Pierre Colombo

Abstract

具备推理能力的大规模语言模型(LLMs)已在众多任务上取得了最先进的性能。尽管其在实践中表现出色,但推理能力在哪些任务上有效、模型规模达到何种程度时推理才真正发挥作用,以及相关的训练与推理成本等问题,仍缺乏深入探索。在本研究中,我们采用一种合成数据蒸馏框架,开展了一项大规模的监督式实验。我们在涵盖数学导向任务与通用任务的广泛场景下,对比了不同规模的指令微调(Instruction Fine-Tuning, IFT)模型与推理模型,评估了多项选择题与开放式问答两种格式的表现。分析结果表明,推理能力始终能持续提升模型性能,往往可达到甚至超越显著更大的IFT系统。值得注意的是,虽然在训练与推理成本方面,IFT模型仍保持帕累托最优,但随着模型规模的扩大,推理模型的价值日益凸显,能够在推理密集型任务和开放式任务上突破IFT模型的性能瓶颈。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
推理何时才重要?一项关于推理对模型性能贡献的受控研究 | Papers | HyperAI超神经