4 个月前

循环神经网络正则化

循环神经网络正则化

摘要

我们提出了一种针对具有长短期记忆(LSTM)单元的循环神经网络(RNN)的简单正则化技术。尽管Dropout是目前最成功的神经网络正则化技术,但它在RNN和LSTM上的效果并不理想。本文中,我们展示了如何正确地将Dropout应用于LSTM,并证明了它在多种任务上显著减少了过拟合现象。这些任务包括语言模型、语音识别、图像描述生成以及机器翻译。

代码仓库

simon-benigeri/lstm-language-model
pytorch
GitHub 中提及
rgarzonj/LSTMs
tf
GitHub 中提及
Goodideax/lstm-negtive
pytorch
GitHub 中提及
wojzaremba/lstm
官方
GitHub 中提及
hjc18/language_modeling_lstm
pytorch
GitHub 中提及
nbansal90/bAbi_QA
GitHub 中提及
Goodideax/rnn_neg_efficient
pytorch
GitHub 中提及
ahmetumutdurmus/zaremba
pytorch
GitHub 中提及
hikaruya8/lstm_model_py
pytorch
GitHub 中提及
floydhub/word-language-model
pytorch
GitHub 中提及
isi-nlp/Zoph_RNN
GitHub 中提及
dhecloud/simple_language_modelling
pytorch
GitHub 中提及
tmatha/lstm
tf
GitHub 中提及
tomsercu/lstm
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-penn-treebank-wordZaremba et al. (2014) - LSTM (large)
Test perplexity: 78.4
Validation perplexity: 82.2
language-modelling-on-penn-treebank-wordZaremba et al. (2014) - LSTM (medium)
Test perplexity: 82.7
Validation perplexity: 86.2
machine-translation-on-wmt2014-english-frenchRegularized LSTM
BLEU score: 29.03

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供