
摘要
我们提出了一种深度且轻量级的Transformer模型——DeLighT,该模型在参数量显著减少的情况下,性能可与标准Transformer模型相当甚至更优。DeLighT通过两种方式更高效地分配参数:(1)在每个Transformer模块内部,采用一种深度且轻量的变换——DeLighT变换,优化模块内部结构;(2)在模块之间,采用分块缩放策略,使得靠近输入层的DeLighT模块更浅更窄,而靠近输出层的模块则更宽更深。总体而言,DeLighT网络的深度比标准Transformer模型高出2.5至4倍,但参数量和计算量却更少。在标准机器翻译和语言建模任务上的实验表明,DeLighT在平均参数量减少2至3倍的情况下,性能可与基线Transformer模型持平或超越。我们的源代码已开源,地址为:\url{https://github.com/sacmehta/delight}。
代码仓库
sacmehta/delight
官方
pytorch
GitHub 中提及
pranay185417/delight
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-wikitext-103 | DeLighT | Number of params: 99M Test perplexity: 24.14 |
| machine-translation-on-iwslt2014-german | DeLighT | BLEU score: 35.3 |
| machine-translation-on-wmt2016-english-1 | DeLighT | BLEU score: 34.7 |
| machine-translation-on-wmt2016-english-french | DeLighT | BLEU score: 40.5 |
| machine-translation-on-wmt2016-english-german | DeLighT | BLEU score: 28.0 |