
摘要
Orca 1 通过学习丰富的信号(如解释轨迹)来提升其性能,使其在 BigBench Hard 和 AGIEval 等基准测试中超越传统的指令调优模型。在 Orca 2 中,我们继续探索如何通过改进的训练信号来增强小型语言模型(LMs)的推理能力。关于小型语言模型的研究通常依赖于模仿学习,以复制更强大模型的输出。我们认为,过度强调模仿可能会限制小型模型的潜力。我们的目标是教会小型语言模型针对不同的任务采用不同的解决方案策略,这些策略可能与大型模型所使用的不同。例如,大型模型可能会直接回答一个复杂任务,而小型模型可能不具备相同的容量。在 Orca 2 中,我们教授了多种推理技巧(逐步推理、回忆生成、回忆-推理-生成、直接回答等)。更重要的是,我们希望帮助模型学会为每个任务选择最有效的解决方案策略。我们使用一套包含 15 个多样化的基准测试集(涵盖约 100 项任务和超过 36,000 条独特的提示)对 Orca 2 进行评估。结果显示,Orca 2 在零样本设置下显著超越了同规模的其他模型,并且在测试高级推理能力的复杂任务中达到了与比其大 5-10 倍的模型相当或更好的性能水平。为了支持小型语言模型的发展、评估和对齐研究,我们将 Orca 2 的权重公开发布在 aka.ms/orca-lm 上。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| arithmetic-reasoning-on-gsm8k | Orca 2 13B | Accuracy: 59.14 Parameters (Billion): 13 |
| arithmetic-reasoning-on-gsm8k | Orca 2 7B | Accuracy: 47.23 Parameters (Billion): 7 |
| crass-ai-on-big-bench | Orca 2-13B | Accuracy: 86.86 |
| crass-ai-on-big-bench | Orca 2-7B | Accuracy: 84.31 |
| multi-task-language-understanding-on-bbh-nlp | Orca 2-7B | Average (%): 45.93 |
| multi-task-language-understanding-on-bbh-nlp | Orca 2-13B | Average (%): 50.18 |
| question-answering-on-agi-eval | Orca 2-13B | Accuracy: 49.93 |
| question-answering-on-agi-eval | Orca 2-7B | Accuracy: 45.1 |
| question-answering-on-drop-test | Orca 2-7B | F1: 60.26 |
| question-answering-on-drop-test | Orca 2-13B | F1: 57.97 |
| reading-comprehension-on-race | Orca 2-7B | Accuracy: 80.79 |
| reading-comprehension-on-race | Orca 2-13B | Accuracy: 82.87 |