4 个月前

基于理论的循环神经网络中Dropout的应用

基于理论的循环神经网络中Dropout的应用

摘要

循环神经网络(RNNs)在近期深度学习的许多发展中处于前沿地位。然而,这些模型的一个主要难题是它们倾向于过拟合,而研究表明在循环层中应用dropout方法会失效。最近,在贝叶斯建模与深度学习交汇领域的研究成果为常见的深度学习技术如dropout提供了贝叶斯解释。将dropout基于近似贝叶斯推理进行理论基础的奠定,暗示了可以扩展这些理论结果,从而为在RNN模型中使用dropout提供新的见解。我们在LSTM和GRU模型中应用了这种新的基于变分推断的dropout技术,并在语言模型和情感分析任务上对其进行了评估。新方法的表现优于现有技术,并且据我们所知,在使用Penn Treebank数据集的语言模型单模型状态下取得了最佳成绩(测试困惑度为73.4)。这进一步丰富了我们在深度学习中使用的变分工具库。

基准测试

基准方法指标
language-modelling-on-penn-treebank-wordGal & Ghahramani (2016) - Variational LSTM (medium)
Test perplexity: 79.7
Validation perplexity: 81.9
language-modelling-on-penn-treebank-wordGal & Ghahramani (2016) - Variational LSTM (large)
Test perplexity: 75.2
Validation perplexity: 77.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于理论的循环神经网络中Dropout的应用 | 论文 | HyperAI超神经