4 个月前

从密集模型到专家混合模型的参数高效稀疏构建以适应通用任务的指令调优

Haoyuan Wu; Haisheng Zheng; Zhuolun He; Bei Yu

摘要

大型语言模型（LLMs）在通用自然语言处理（NLP）任务中表现出显著的熟练度。指令调优是一种成功的范式，可以增强大型语言模型遵循自然语言指令的能力，并在各种任务中展现出强大的泛化性能。然而，这些模型在多个任务上经常遇到性能限制，这主要是由于模型容量有限所致。在指令调优阶段扩展模型容量面临着重大挑战。为了解决这一问题，我们引入了一种参数高效的稀疏性构建方法（Parameter-Efficient Sparsity Crafting, PESC），该方法利用专家混合（Mixture-of-Experts, MoE）架构将密集模型转化为稀疏模型。PESC通过在稀疏模型的MoE层中集成适配器来区分不同的专家，而不会改变这些层中的单个权重。这种方法显著降低了计算成本和GPU内存需求，在保证函数空间近似质量与原始稀疏再循环相当的情况下，通过最小的参数增加实现了模型容量的扩展。我们的实证评估表明了PESC方法的有效性。在指令调优过程中使用PESC，我们的最佳稀疏模型不仅优于其他稀疏和密集模型，而且相比GPT-3.5展现了更强的泛化能力。我们的代码已发布在https://github.com/wuhy68/Parameter-Efficient-MoE。

代码仓库

wuhy68/parameter-efficient-moe

官方

pytorch

GitHub 中提及

ShayekhBinIslam/openrag

pytorch

GitHub 中提及

基准测试

基准	方法	指标
arithmetic-reasoning-on-gsm8k	Camelidae-8×34B (5-shot)	Accuracy: 78.3
arithmetic-reasoning-on-gsm8k	Qwen2idae-16x14B (5-shot)	Accuracy: 77.8
code-generation-on-mbpp	Camelidae-8×34B (4-shot)	Accuracy: 41.4
code-generation-on-mbpp	Qwen2idae-16x14B (4-shot)	Accuracy: 48.6
common-sense-reasoning-on-arc-challenge	Camelidae-8×34B	Accuracy: 65.2
common-sense-reasoning-on-arc-easy	Camelidae-8×34B	Accuracy: 86.2
common-sense-reasoning-on-winogrande	Camelidae-8×34B	Accuracy: 80.9
math-word-problem-solving-on-math	Qwen2idae-16x14B (4-shot)	Accuracy: 29.9
math-word-problem-solving-on-math	Camelidae-8×34B (4-shot)	Accuracy: 22.6
multi-task-language-understanding-on-mmlu	Camelidae-8×34B (5-shot)	Average (%): 75.6
question-answering-on-piqa	Camelidae-8×34B	Accuracy: 82.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供