
摘要
我们提出了一种针对具有长短期记忆(LSTM)单元的循环神经网络(RNN)的简单正则化技术。尽管Dropout是目前最成功的神经网络正则化技术,但它在RNN和LSTM上的效果并不理想。本文中,我们展示了如何正确地将Dropout应用于LSTM,并证明了它在多种任务上显著减少了过拟合现象。这些任务包括语言模型、语音识别、图像描述生成以及机器翻译。
代码仓库
simon-benigeri/lstm-language-model
pytorch
GitHub 中提及
rgarzonj/LSTMs
tf
GitHub 中提及
Goodideax/lstm-negtive
pytorch
GitHub 中提及
martin-gorner/tensorflow-rnn-shakespeare
tf
GitHub 中提及
wojzaremba/lstm
官方
GitHub 中提及
shivam13juna/Sequence_Prediction_LSTM_CHAR
tf
GitHub 中提及
hjc18/language_modeling_lstm
pytorch
GitHub 中提及
nbansal90/bAbi_QA
GitHub 中提及
Goodideax/rnn_neg_efficient
pytorch
GitHub 中提及
jincan333/lot
pytorch
ahmetumutdurmus/zaremba
pytorch
GitHub 中提及
hikaruya8/lstm_model_py
pytorch
GitHub 中提及
floydhub/word-language-model
pytorch
GitHub 中提及
sebastianGehrmann/tensorflow-statereader
tf
GitHub 中提及
FredericGodin/QuasiRNN-DReLU
GitHub 中提及
isi-nlp/Zoph_RNN
GitHub 中提及
dhecloud/simple_language_modelling
pytorch
GitHub 中提及
tmatha/lstm
tf
GitHub 中提及
tomsercu/lstm
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-penn-treebank-word | Zaremba et al. (2014) - LSTM (large) | Test perplexity: 78.4 Validation perplexity: 82.2 |
| language-modelling-on-penn-treebank-word | Zaremba et al. (2014) - LSTM (medium) | Test perplexity: 82.7 Validation perplexity: 86.2 |
| machine-translation-on-wmt2014-english-french | Regularized LSTM | BLEU score: 29.03 |