6 个月前

多任务学习

Dengchun Li Yingzi Ma Naizheng Wang Zhengmao Ye Zhiyuan Cheng Yinghao Tang Yan Zhang Lei Duan Jie Zuo Cal Yang

摘要

微调大型语言模型（LLM）是将预训练模型适配至特定应用场景的常用方法。尽管LoRA等方法在微调过程中有效缓解了GPU显存瓶颈，但其性能在多任务场景下往往表现不足。相比之下，混合专家模型（Mixture-of-Experts, MoE）如Mixtral 8x7B，在多任务学习中展现出卓越的性能，同时保持较低的参数量。然而，这类MoE模型的资源消耗依然较高，尤其对显存低于24GB的消费级GPU而言仍具挑战性。为应对上述挑战，我们提出MixLoRA，一种基于LoRA构建资源高效稀疏MoE模型的新方法。MixLoRA在冻结的预训练稠密模型的前馈网络（feed-forward network）模块中插入多个基于LoRA的专家，并采用常见的top-k路由机制。与现有的基于LoRA的MoE方法不同，MixLoRA通过引入独立的注意力层LoRA适配器，显著提升了模型性能。此外，我们设计了一种辅助负载均衡损失函数，以缓解路由机制中的专家负载不均问题。实验结果表明，在多任务学习场景下，MixLoRA相比当前最先进的参数高效微调（PEFT）方法，准确率提升了约9%。同时，我们提出了一种新型高吞吐量框架，有效缓解了MoE模型在训练与推理过程中的计算与内存瓶颈。该框架在训练与推理阶段均实现GPU显存占用降低40%，令牌计算延迟减少30%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

Dengchun Li Yingzi Ma Naizheng Wang Zhengmao Ye Zhiyuan Cheng Yinghao Tang Yan Zhang Lei Duan Jie Zuo Cal Yang

摘要

微调大型语言模型（LLM）是将预训练模型适配至特定应用场景的常用方法。尽管LoRA等方法在微调过程中有效缓解了GPU显存瓶颈，但其性能在多任务场景下往往表现不足。相比之下，混合专家模型（Mixture-of-Experts, MoE）如Mixtral 8x7B，在多任务学习中展现出卓越的性能，同时保持较低的参数量。然而，这类MoE模型的资源消耗依然较高，尤其对显存低于24GB的消费级GPU而言仍具挑战性。为应对上述挑战，我们提出MixLoRA，一种基于LoRA构建资源高效稀疏MoE模型的新方法。MixLoRA在冻结的预训练稠密模型的前馈网络（feed-forward network）模块中插入多个基于LoRA的专家，并采用常见的top-k路由机制。与现有的基于LoRA的MoE方法不同，MixLoRA通过引入独立的注意力层LoRA适配器，显著提升了模型性能。此外，我们设计了一种辅助负载均衡损失函数，以缓解路由机制中的专家负载不均问题。实验结果表明，在多任务学习场景下，MixLoRA相比当前最先进的参数高效微调（PEFT）方法，准确率提升了约9%。同时，我们提出了一种新型高吞吐量框架，有效缓解了MoE模型在训练与推理过程中的计算与内存瓶颈。该框架在训练与推理阶段均实现GPU显存占用降低40%，令牌计算延迟减少30%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

MixLoRA：基于LoRA的专家混合方法增强大语言模型微调 | 论文 | HyperAI超神经