3 个月前

Mega:具备移动平均门控注意力机制

Mega:具备移动平均门控注意力机制

摘要

Transformer注意力机制在设计上的若干选择,包括较弱的归纳偏置(inductive bias)以及二次方时间复杂度,限制了其在建模长序列任务中的应用。本文提出Mega,一种简洁且具有理论基础的单头门控注意力机制,通过引入(指数)移动平均方法,将位置感知的局部依赖归纳偏置融入原本对位置不敏感的注意力机制中。此外,我们进一步提出Mega的一种变体,通过高效地将整个序列划分为固定长度的多个片段,实现了线性的时间与空间复杂度,同时仅带来微小的性能损失。在广泛的任务基准上进行的大量实验表明,包括长序列基准(Long Range Arena)、神经机器翻译、自回归语言建模以及图像与语音分类任务,Mega在性能上显著优于其他序列建模模型,包括各类Transformer变体以及近期的状态空间模型(state space models)。

代码仓库

facebookresearch/mega
官方
pytorch
GitHub 中提及
ethanbar11/ssm_2d
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
linghao-jin/canmt-challenges
pytorch
GitHub 中提及
ZIZUN/MAFiD
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetMega
Number of params: 90M
Top 1 Accuracy: 82.4%
language-modelling-on-wikitext-103Mega
Number of params: 252M
Test perplexity: 18.07
machine-translation-on-wmt2014-english-germanMega
BLEU score: 29.01
Number of Params: 67M
SacreBLEU: 27.96
machine-translation-on-wmt2014-german-englishMega
BLEU score: 33.12

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Mega:具备移动平均门控注意力机制 | 论文 | HyperAI超神经