
摘要
我们将语言模型构建为一个矩阵分解问题,并证明了基于Softmax的模型(包括大多数神经语言模型)的表达能力受到Softmax瓶颈的限制。鉴于自然语言具有高度的上下文依赖性,这进一步表明在实际应用中,Softmax结合分布式词嵌入的方法并不具备足够的容量来建模自然语言。我们提出了一种简单而有效的方法来解决这一问题,并将Penn Treebank和WikiText-2数据集上的最新困惑度分别提升至47.69和40.68。所提出的这种方法在大规模1B Word数据集上也表现出色,其困惑度比基线模型提高了超过5.6个点。
代码仓库
yfreedomliTHU/mos-pytorch1.1
pytorch
GitHub 中提及
omerlux/NLP-PTB
pytorch
GitHub 中提及
cstorm125/thai2fit
pytorch
GitHub 中提及
nunezpaul/MNIST
tf
GitHub 中提及
zhangyaoyuan/GAN-Simplification
tf
GitHub 中提及
nkcr/overlap-ml
pytorch
GitHub 中提及
omerlux/Recurrent_Neural_Network_-_Part_2
tf
GitHub 中提及
tdmeeste/SparseSeqModels
pytorch
GitHub 中提及
zihangdai/mos
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-penn-treebank-word | AWD-LSTM-MoS + dynamic eval | Params: 22M Test perplexity: 47.69 Validation perplexity: 48.33 |
| language-modelling-on-penn-treebank-word | AWD-LSTM-MoS | Params: 22M Test perplexity: 54.44 Validation perplexity: 56.54 |
| language-modelling-on-wikitext-2 | AWD-LSTM-MoS + dynamic eval | Number of params: 35M Test perplexity: 40.68 Validation perplexity: 42.41 |
| language-modelling-on-wikitext-2 | AWD-LSTM-MoS | Number of params: 35M Test perplexity: 61.45 Validation perplexity: 63.88 |