
摘要
循环神经网络(RNNs)在近期深度学习的许多发展中处于前沿地位。然而,这些模型的一个主要难题是它们倾向于过拟合,而研究表明在循环层中应用dropout方法会失效。最近,在贝叶斯建模与深度学习交汇领域的研究成果为常见的深度学习技术如dropout提供了贝叶斯解释。将dropout基于近似贝叶斯推理进行理论基础的奠定,暗示了可以扩展这些理论结果,从而为在RNN模型中使用dropout提供新的见解。我们在LSTM和GRU模型中应用了这种新的基于变分推断的dropout技术,并在语言模型和情感分析任务上对其进行了评估。新方法的表现优于现有技术,并且据我们所知,在使用Penn Treebank数据集的语言模型单模型状态下取得了最佳成绩(测试困惑度为73.4)。这进一步丰富了我们在深度学习中使用的变分工具库。
代码仓库
SuperKam91/bnn
tf
GitHub 中提及
samihadouaj/siyanWork
GitHub 中提及
Waino/hnmt
GitHub 中提及
zhangyaoyuan/GAN-Simplification
tf
GitHub 中提及
HKUST-KnowComp/R-Net
tf
GitHub 中提及
martin-gorner/tensorflow-rnn-shakespeare
tf
GitHub 中提及
josephdviviano/lstm-variational-dropout
pytorch
GitHub 中提及
shivam13juna/Sequence_Prediction_LSTM_CHAR
tf
GitHub 中提及
bhaddow/dev-nematus
tf
GitHub 中提及
magahub/songrnn
tf
GitHub 中提及
yaringal/BayesianRNN
GitHub 中提及
abdelrahmansaud/vLSTM
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-penn-treebank-word | Gal & Ghahramani (2016) - Variational LSTM (medium) | Test perplexity: 79.7 Validation perplexity: 81.9 |
| language-modelling-on-penn-treebank-word | Gal & Ghahramani (2016) - Variational LSTM (large) | Test perplexity: 75.2 Validation perplexity: 77.9 |