
摘要
本研究笔记结合了两种最近在语言模型领域取得显著进展的方法:Transformer 和动态评估。Transformer 通过堆叠自注意力层来捕捉序列数据中的长距离依赖关系。动态评估则根据近期的序列历史对模型进行拟合,使其能够为重复出现的序列模式分配更高的概率。通过将动态评估应用于 Transformer-XL 模型,我们在 enwik8 数据集上的表现从 0.99 提升至 0.94 bit/char,在 text8 数据集上的表现从 1.08 提升至 1.04 bit/char,以及在 WikiText-103 数据集上的困惑度从 18.3 降低到 16.4。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-enwiki8 | Transformer-XL (24 layers, RMS dynamic eval, decay) | Bit per Character (BPC): 0.940 Number of params: 277M |
| language-modelling-on-hutter-prize | Transformer-XL + RMS dynamic eval | Bit per Character (BPC): 0.94 Number of params: 277M |
| language-modelling-on-text8 | Transformer-XL + RMS dynamic eval + decay | Bit per Character (BPC): 1.038 Number of params: 277M |
| language-modelling-on-wikitext-103 | Transformer-XL (RMS dynamic eval) | Number of params: 257M Test perplexity: 16.4 Validation perplexity: 15.8 |
| language-modelling-on-wikitext-103 | Transformer-XL (SGD dynamic eval) | Number of params: 257M Test perplexity: 17.0 Validation perplexity: 16.3 |