4 个月前

监督式微调

Nicolas Boizard Hippolyte Gisserot-Boukhlef Kevin El-Haddad Céline Hudelot Pierre Colombo

摘要

具备推理能力的大规模语言模型（LLMs）已在众多任务上取得了最先进的性能。尽管其在实践中表现出色，但推理能力在哪些任务上有效、模型规模达到何种程度时推理才真正发挥作用，以及相关的训练与推理成本等问题，仍缺乏深入探索。在本研究中，我们采用一种合成数据蒸馏框架，开展了一项大规模的监督式实验。我们在涵盖数学导向任务与通用任务的广泛场景下，对比了不同规模的指令微调（Instruction Fine-Tuning, IFT）模型与推理模型，评估了多项选择题与开放式问答两种格式的表现。分析结果表明，推理能力始终能持续提升模型性能，往往可达到甚至超越显著更大的IFT系统。值得注意的是，虽然在训练与推理成本方面，IFT模型仍保持帕累托最优，但随着模型规模的扩大，推理模型的价值日益凸显，能够在推理密集型任务和开放式任务上突破IFT模型的性能瓶颈。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

监督式微调

Nicolas Boizard Hippolyte Gisserot-Boukhlef Kevin El-Haddad Céline Hudelot Pierre Colombo

摘要

具备推理能力的大规模语言模型（LLMs）已在众多任务上取得了最先进的性能。尽管其在实践中表现出色，但推理能力在哪些任务上有效、模型规模达到何种程度时推理才真正发挥作用，以及相关的训练与推理成本等问题，仍缺乏深入探索。在本研究中，我们采用一种合成数据蒸馏框架，开展了一项大规模的监督式实验。我们在涵盖数学导向任务与通用任务的广泛场景下，对比了不同规模的指令微调（Instruction Fine-Tuning, IFT）模型与推理模型，评估了多项选择题与开放式问答两种格式的表现。分析结果表明，推理能力始终能持续提升模型性能，往往可达到甚至超越显著更大的IFT系统。值得注意的是，虽然在训练与推理成本方面，IFT模型仍保持帕累托最优，但随着模型规模的扩大，推理模型的价值日益凸显，能够在推理密集型任务和开放式任务上突破IFT模型的性能瓶颈。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供