6 个月前

自然语言处理

自然语言处理

Ping Yu Mikel Artetxe Myle Ott Sam Shleifer Hongyu Gong Ves Stoyanov Xian Li

摘要

所有基于MLP（多层感知机）的架构近年来受到越来越多关注，被视为注意力机制模型的一种替代方案。在自然语言处理（NLP）领域，近期研究如gMLP表明，纯MLP模型在语言建模任务中已可与Transformer相媲美，但在下游任务上的表现仍存在差距。本文分析了MLP在表达能力方面的局限性，并提出了一种在特征维度和输入（token）维度上均采用专家混合（Mixture-of-Experts, MoE）机制的稀疏激活MLP结构。这种稀疏的全MLP架构在保持计算量不变的前提下，显著提升了模型容量与表达能力。为解决引入条件计算所面临的若干关键挑战，本文设计了两种路由策略。实验结果表明，所提出的稀疏全MLP在语言建模的困惑度（perplexity）上表现更优，并在训练效率方面相较基于Transformer的MoE模型（如GShard、Switch Transformer、Base Layers和HASH Layers），以及密集型Transformer和纯MLP模型，实现了最高达2倍的提升。最后，我们在六个下游任务上评估了该模型的零样本上下文学习（zero-shot in-context learning）性能，结果表明其表现超越了基于Transformer的MoE模型和密集型Transformer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Ping Yu Mikel Artetxe Myle Ott Sam Shleifer Hongyu Gong Ves Stoyanov Xian Li

摘要

所有基于MLP（多层感知机）的架构近年来受到越来越多关注，被视为注意力机制模型的一种替代方案。在自然语言处理（NLP）领域，近期研究如gMLP表明，纯MLP模型在语言建模任务中已可与Transformer相媲美，但在下游任务上的表现仍存在差距。本文分析了MLP在表达能力方面的局限性，并提出了一种在特征维度和输入（token）维度上均采用专家混合（Mixture-of-Experts, MoE）机制的稀疏激活MLP结构。这种稀疏的全MLP架构在保持计算量不变的前提下，显著提升了模型容量与表达能力。为解决引入条件计算所面临的若干关键挑战，本文设计了两种路由策略。实验结果表明，所提出的稀疏全MLP在语言建模的困惑度（perplexity）上表现更优，并在训练效率方面相较基于Transformer的MoE模型（如GShard、Switch Transformer、Base Layers和HASH Layers），以及密集型Transformer和纯MLP模型，实现了最高达2倍的提升。最后，我们在六个下游任务上评估了该模型的零样本上下文学习（zero-shot in-context learning）性能，结果表明其表现超越了基于Transformer的MoE模型和密集型Transformer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供