7 个月前

摘要

我们将语言模型构建为一个矩阵分解问题，并证明了基于Softmax的模型（包括大多数神经语言模型）的表达能力受到Softmax瓶颈的限制。鉴于自然语言具有高度的上下文依赖性，这进一步表明在实际应用中，Softmax结合分布式词嵌入的方法并不具备足够的容量来建模自然语言。我们提出了一种简单而有效的方法来解决这一问题，并将Penn Treebank和WikiText-2数据集上的最新困惑度分别提升至47.69和40.68。所提出的这种方法在大规模1B Word数据集上也表现出色，其困惑度比基线模型提高了超过5.6个点。

源 PDF