6 个月前

监督式微调

Shubham Toshniwal Ivan Moshkov Sean Narenthiran Daria Gitman Fei Jia Igor Gitman

摘要

近期研究显示，合成生成的数据集在训练大型语言模型（LLMs）方面具有巨大潜力，尤其在获取特定技能方面表现突出。当前大规模数学指令微调数据集，如MetaMathQA（Yu等，2024）和MAmmoTH（Yue等，2024），均基于闭源大模型在商业限制性许可下的输出构建。制约开源大模型在这些数据生成流程中广泛应用的关键因素，在于顶尖闭源模型（如GPT-4）与当前最优开源模型之间在数学能力上存在的显著差距。基于开源大模型的最新进展、我们提出的新型提示工程方法以及一定的暴力扩展策略，我们构建了OpenMathInstruct-1——一个包含180万组问题-解答对的数学指令微调数据集。该数据集通过合成代码解释器解决方案，针对GSM8K和MATH两个主流数学推理基准，利用近期发布且采用宽松许可协议的Mixtral模型生成。我们训练的最优模型OpenMath-CodeLlama-70B，在OpenMathInstruct-1子集上进行微调后，在GSM8K上取得84.6%的准确率，在MATH上达到50.7%，性能与最佳的GPT蒸馏模型相当。我们已将代码、模型及OpenMathInstruct-1数据集以商业友好型许可协议开源发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

监督式微调

Shubham Toshniwal Ivan Moshkov Sean Narenthiran Daria Gitman Fei Jia Igor Gitman

摘要

近期研究显示，合成生成的数据集在训练大型语言模型（LLMs）方面具有巨大潜力，尤其在获取特定技能方面表现突出。当前大规模数学指令微调数据集，如MetaMathQA（Yu等，2024）和MAmmoTH（Yue等，2024），均基于闭源大模型在商业限制性许可下的输出构建。制约开源大模型在这些数据生成流程中广泛应用的关键因素，在于顶尖闭源模型（如GPT-4）与当前最优开源模型之间在数学能力上存在的显著差距。基于开源大模型的最新进展、我们提出的新型提示工程方法以及一定的暴力扩展策略，我们构建了OpenMathInstruct-1——一个包含180万组问题-解答对的数学指令微调数据集。该数据集通过合成代码解释器解决方案，针对GSM8K和MATH两个主流数学推理基准，利用近期发布且采用宽松许可协议的Mixtral模型生成。我们训练的最优模型OpenMath-CodeLlama-70B，在OpenMathInstruct-1子集上进行微调后，在GSM8K上取得84.6%的准确率，在MATH上达到50.7%，性能与最佳的GPT蒸馏模型相当。我们已将代码、模型及OpenMathInstruct-1数据集以商业友好型许可协议开源发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供