7 个月前

摘要

许多领先的语言模型方法引入了新颖、复杂和专门化的架构。我们基于现有的基于LSTM（长短期记忆网络）和QRNN（准循环神经网络）的最先进词级语言模型，将其扩展到更大的词汇表以及字符级别的粒度。在适当调优后，LSTM和QRNN分别在字符级（Penn Treebank、enwik8）和词级（WikiText-103）数据集上取得了最先进的结果。这些结果仅使用单个现代GPU在12小时（WikiText-103）到2天（enwik8）内获得。

源 PDF