6 个月前

监督式微调

Zui Chen Yezeng Chen Jiaqi Han Zhijie Huang Ji Qi Yi Zhou

摘要

大型语言模型（LLMs）在数学推理任务中展现出涌现能力，学术界对通过监督微调（Supervised Fine-Tuning, SFT）提升开源LLMs数学推理能力的关注日益增加。本文旨在探索一种通用的监督数据构建策略，以优化并拓展模型的数学推理能力。首先，我们通过识别推理路径的最小最优集合，确定了推理路径增强能力的边界。其次，我们验证了通过混合对应类型数据的最小最优集合（Mix of Minimal Optimal Sets, MMOS），可实现模型不同能力的累积性提升；在此策略下，我们的模型MMOS在多个基础模型上均取得了当前最优（SOTA）性能，且数据构建成本显著降低。此外，我们指出GSM-HARD数据集实际上并不具备真正难度，当前的LLMs已不再缺乏数值鲁棒性。同时，我们提出了一种自动化问题生成器，可用于模型鲁棒性测试及教育应用场景。本文代码与数据已公开，详见：https://github.com/cyzhh/MMOS。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

监督式微调

Zui Chen Yezeng Chen Jiaqi Han Zhijie Huang Ji Qi Yi Zhou

摘要

大型语言模型（LLMs）在数学推理任务中展现出涌现能力，学术界对通过监督微调（Supervised Fine-Tuning, SFT）提升开源LLMs数学推理能力的关注日益增加。本文旨在探索一种通用的监督数据构建策略，以优化并拓展模型的数学推理能力。首先，我们通过识别推理路径的最小最优集合，确定了推理路径增强能力的边界。其次，我们验证了通过混合对应类型数据的最小最优集合（Mix of Minimal Optimal Sets, MMOS），可实现模型不同能力的累积性提升；在此策略下，我们的模型MMOS在多个基础模型上均取得了当前最优（SOTA）性能，且数据构建成本显著降低。此外，我们指出GSM-HARD数据集实际上并不具备真正难度，当前的LLMs已不再缺乏数值鲁棒性。同时，我们提出了一种自动化问题生成器，可用于模型鲁棒性测试及教育应用场景。本文代码与数据已公开，详见：https://github.com/cyzhh/MMOS。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供