
摘要
许多任务,包括语言生成,都能从学习输出空间的结构中受益,尤其是在输出标签空间较大且数据稀疏的情况下。最先进的神经语言模型通过其分类器权重间接捕捉输出空间的结构,因为这些模型在输出标签之间缺乏参数共享。学习共享的输出标签映射有助于提高性能,但现有的方法表达能力有限且容易过拟合。本文中,我们研究了更强大的共享映射对输出标签的有效性,并提出了一种带有层间dropout的深度残差输出映射,以更好地捕捉输出空间的结构并避免过拟合。我们在三个语言生成任务上的评估表明,我们的输出标签映射可以匹配或超越最先进的循环神经网络和自注意力架构,并暗示如果分类器能够更好地捕捉输出空间的结构,则不一定需要高秩来更好地建模自然语言。
代码仓库
idiap/drill
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-penn-treebank-word | AWD-LSTM-DRILL + dynamic eval | Params: 24M Test perplexity: 49.4 Validation perplexity: 49.5 |
| language-modelling-on-penn-treebank-word | AWD-LSTM-DRILL | Params: 24M Test perplexity: 55.7 Validation perplexity: 58.2 |
| language-modelling-on-wikitext-2 | AWD-LSTM-DRILL | Number of params: 34M Test perplexity: 61.9 Validation perplexity: 64.9 |
| language-modelling-on-wikitext-2 | AWD-LSTM-DRILL + dynamic eval | Number of params: 34M Test perplexity: 42.0 Validation perplexity: 43.9 |
| machine-translation-on-wmt2014-english-german | Transformer-DRILL Base | BLEU score: 28.1 Hardware Burden: Operations per network pass: |