
摘要
大型语言模型(LLMs)在通用自然语言处理(NLP)任务中表现出显著的熟练度。指令调优是一种成功的范式,可以增强大型语言模型遵循自然语言指令的能力,并在各种任务中展现出强大的泛化性能。然而,这些模型在多个任务上经常遇到性能限制,这主要是由于模型容量有限所致。在指令调优阶段扩展模型容量面临着重大挑战。为了解决这一问题,我们引入了一种参数高效的稀疏性构建方法(Parameter-Efficient Sparsity Crafting, PESC),该方法利用专家混合(Mixture-of-Experts, MoE)架构将密集模型转化为稀疏模型。PESC通过在稀疏模型的MoE层中集成适配器来区分不同的专家,而不会改变这些层中的单个权重。这种方法显著降低了计算成本和GPU内存需求,在保证函数空间近似质量与原始稀疏再循环相当的情况下,通过最小的参数增加实现了模型容量的扩展。我们的实证评估表明了PESC方法的有效性。在指令调优过程中使用PESC,我们的最佳稀疏模型不仅优于其他稀疏和密集模型,而且相比GPT-3.5展现了更强的泛化能力。我们的代码已发布在https://github.com/wuhy68/Parameter-Efficient-MoE。
代码仓库
wuhy68/parameter-efficient-moe
官方
pytorch
GitHub 中提及
ShayekhBinIslam/openrag
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| arithmetic-reasoning-on-gsm8k | Camelidae-8×34B (5-shot) | Accuracy: 78.3 |
| arithmetic-reasoning-on-gsm8k | Qwen2idae-16x14B (5-shot) | Accuracy: 77.8 |
| code-generation-on-mbpp | Camelidae-8×34B (4-shot) | Accuracy: 41.4 |
| code-generation-on-mbpp | Qwen2idae-16x14B (4-shot) | Accuracy: 48.6 |
| common-sense-reasoning-on-arc-challenge | Camelidae-8×34B | Accuracy: 65.2 |
| common-sense-reasoning-on-arc-easy | Camelidae-8×34B | Accuracy: 86.2 |
| common-sense-reasoning-on-winogrande | Camelidae-8×34B | Accuracy: 80.9 |
| math-word-problem-solving-on-math | Qwen2idae-16x14B (4-shot) | Accuracy: 29.9 |
| math-word-problem-solving-on-math | Camelidae-8×34B (4-shot) | Accuracy: 22.6 |
| multi-task-language-understanding-on-mmlu | Camelidae-8×34B (5-shot) | Average (%): 75.6 |
| question-answering-on-piqa | Camelidae-8×34B | Accuracy: 82.7 |