8 个月前

监督式微调

多任务学习

Arindam Mitra Luciano Del Corro† Shweti Mahajan† Andres Codas† Clarisse Simoes‡ Sahaj Agarwal Xuxi Chen Anastasia Razdaibiedina∗ Erik Jones∗ Kriti Aggarwal∗

摘要

Orca 1 通过学习丰富的信号（如解释轨迹）来提升其性能，使其在 BigBench Hard 和 AGIEval 等基准测试中超越传统的指令调优模型。在 Orca 2 中，我们继续探索如何通过改进的训练信号来增强小型语言模型（LMs）的推理能力。关于小型语言模型的研究通常依赖于模仿学习，以复制更强大模型的输出。我们认为，过度强调模仿可能会限制小型模型的潜力。我们的目标是教会小型语言模型针对不同的任务采用不同的解决方案策略，这些策略可能与大型模型所使用的不同。例如，大型模型可能会直接回答一个复杂任务，而小型模型可能不具备相同的容量。在 Orca 2 中，我们教授了多种推理技巧（逐步推理、回忆生成、回忆-推理-生成、直接回答等）。更重要的是，我们希望帮助模型学会为每个任务选择最有效的解决方案策略。我们使用一套包含 15 个多样化的基准测试集（涵盖约 100 项任务和超过 36,000 条独特的提示）对 Orca 2 进行评估。结果显示，Orca 2 在零样本设置下显著超越了同规模的其他模型，并且在测试高级推理能力的复杂任务中达到了与比其大 5-10 倍的模型相当或更好的性能水平。为了支持小型语言模型的发展、评估和对齐研究，我们将 Orca 2 的权重公开发布在 aka.ms/orca-lm 上。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

监督式微调

多任务学习

Arindam Mitra Luciano Del Corro† Shweti Mahajan† Andres Codas† Clarisse Simoes‡ Sahaj Agarwal Xuxi Chen Anastasia Razdaibiedina∗ Erik Jones∗ Kriti Aggarwal∗

摘要

Orca 1 通过学习丰富的信号（如解释轨迹）来提升其性能，使其在 BigBench Hard 和 AGIEval 等基准测试中超越传统的指令调优模型。在 Orca 2 中，我们继续探索如何通过改进的训练信号来增强小型语言模型（LMs）的推理能力。关于小型语言模型的研究通常依赖于模仿学习，以复制更强大模型的输出。我们认为，过度强调模仿可能会限制小型模型的潜力。我们的目标是教会小型语言模型针对不同的任务采用不同的解决方案策略，这些策略可能与大型模型所使用的不同。例如，大型模型可能会直接回答一个复杂任务，而小型模型可能不具备相同的容量。在 Orca 2 中，我们教授了多种推理技巧（逐步推理、回忆生成、回忆-推理-生成、直接回答等）。更重要的是，我们希望帮助模型学会为每个任务选择最有效的解决方案策略。我们使用一套包含 15 个多样化的基准测试集（涵盖约 100 项任务和超过 36,000 条独特的提示）对 Orca 2 进行评估。结果显示，Orca 2 在零样本设置下显著超越了同规模的其他模型，并且在测试高级推理能力的复杂任务中达到了与比其大 5-10 倍的模型相当或更好的性能水平。为了支持小型语言模型的发展、评估和对齐研究，我们将 Orca 2 的权重公开发布在 aka.ms/orca-lm 上。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供