
摘要
我们提出了两种简化方法,用于减少大型长短期记忆(LSTM)网络的参数数量并加速其训练过程:第一种方法是“设计矩阵分解”(matrix factorization by design),即将LSTM矩阵分解为两个较小矩阵的乘积;第二种方法是LSTM矩阵、输入和状态的分区(partitioning),将其划分为独立的组。这两种方法使我们能够在显著减少循环神经网络(RNN)参数的同时,大幅加快大型LSTM网络的训练速度,并达到接近当前最佳水平的困惑度(perplexity)。
代码仓库
rdspring1/PyTorch_GBW_LM
pytorch
GitHub 中提及
okuchaiev/f-lm
官方
tf
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-one-billion-word | BIG G-LSTM-2 | PPL: 36.0 |