3 个月前

Llama 3 遇上 MoE:高效再利用

Llama 3 遇上 MoE:高效再利用

摘要

大规模语言模型(LLMs)的扩展显著提升了模型性能,但随之而来的是高昂的计算成本。混合专家(Mixture-of-Experts, MoE)模型提供了一种高效的替代方案,在不带来成比例计算开销增长的前提下,显著提升了模型容量。然而,从零开始训练MoE模型面临过拟合和路由不稳定性等挑战。本文提出一种高效的训练方法,利用预训练的密集模型检查点,仅需典型预训练计算资源的不到1%,即可从Llama 3-8B模型出发,成功训练出一个8专家、Top-2路由的MoE模型。该方法在学术基准测试中显著提升了下游任务表现,在MMLU数据集上实现了0-shot准确率提升2%的成果。同时,在训练过程中,我们的框架达到了46.8%的模型浮点运算利用率(MFU)。此外,我们还在NeMo框架中集成了在线权重再利用(online upcycling)机制,实现了预训练权重的无缝复用,显著降低了高容量MoE模型开发的成本,推动了高效、经济的MoE模型构建。

代码仓库

NVIDIA/NeMo
官方
pytorch

基准测试

基准方法指标
multi-task-language-understanding-on-mmluLlama 3.1 (405B)
Average (%): 86.6
multi-task-language-understanding-on-mmluLlama 3.1 (70B)
Average (%): 86.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Llama 3 遇上 MoE:高效再利用 | 论文 | HyperAI超神经