HyperAIHyperAI

Command Palette

Search for a command to run...

Mega:具备移动平均门控注意力机制

Xuezhe Ma Chunting Zhou Xiang Kong Junxian He Liangke Gui Graham Neubig Jonathan May Luke Zettlemoyer

摘要

Transformer注意力机制在设计上的若干选择,包括较弱的归纳偏置(inductive bias)以及二次方时间复杂度,限制了其在建模长序列任务中的应用。本文提出Mega,一种简洁且具有理论基础的单头门控注意力机制,通过引入(指数)移动平均方法,将位置感知的局部依赖归纳偏置融入原本对位置不敏感的注意力机制中。此外,我们进一步提出Mega的一种变体,通过高效地将整个序列划分为固定长度的多个片段,实现了线性的时间与空间复杂度,同时仅带来微小的性能损失。在广泛的任务基准上进行的大量实验表明,包括长序列基准(Long Range Arena)、神经机器翻译、自回归语言建模以及图像与语音分类任务,Mega在性能上显著优于其他序列建模模型,包括各类Transformer变体以及近期的状态空间模型(state space models)。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Mega:具备移动平均门控注意力机制 | 论文 | HyperAI超神经