
摘要
变压器网络在语言建模和机器翻译方面取得了重要进展。这些模型包括两个连续的模块:前馈层和自注意力层。后者使网络能够捕捉长期依赖关系,通常被认为是变压器成功的关键因素。基于这一直觉,我们提出了一种仅由注意力层组成的新型模型。具体来说,我们在自注意力层中增加了持久记忆向量(persistent memory vectors),它们的作用类似于前馈层。借助这些向量,我们可以移除前馈层而不降低变压器的性能。我们的评估表明,该模型在标准的字符级和词级语言建模基准测试中带来了显著的好处。
代码仓库
facebookresearch/adaptive-span
pytorch
GitHub 中提及
lucidrains/x-transformers
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-enwiki8 | All-attention network (36 layers) | Number of params: 114M |
| language-modelling-on-enwiki8 | All-attention network (18 layers) | Bit per Character (BPC): 1.01 Number of params: 39M |
| language-modelling-on-text8 | All-attention network - 36 layers | Bit per Character (BPC): 1.08 Number of params: 114M |
| language-modelling-on-text8 | All-attention network - 18 layers | Bit per Character (BPC): 1.11 Number of params: 38M |
| language-modelling-on-wikitext-103 | All-attention network (36 layers) | Number of params: 133M Test perplexity: 20.6 Validation perplexity: 19.7 |