7 个月前

摘要

我们提出了两种简化方法，用于减少大型长短期记忆（LSTM）网络的参数数量并加速其训练过程：第一种方法是“设计矩阵分解”(matrix factorization by design)，即将LSTM矩阵分解为两个较小矩阵的乘积；第二种方法是LSTM矩阵、输入和状态的分区(partitioning)，将其划分为独立的组。这两种方法使我们能够在显著减少循环神经网络（RNN）参数的同时，大幅加快大型LSTM网络的训练速度，并达到接近当前最佳水平的困惑度(perplexity)。

源 PDF