4 个月前

通过解码过去改进语言模型

通过解码过去改进语言模型

摘要

高度正则化的长短期记忆网络(LSTMs)在语言模型的多个基准数据集上取得了令人印象深刻的结果。我们提出了一种新的正则化方法,该方法基于使用预测的下一个词的概率分布来解码上下文中的最后一个词。这使得模型倾向于保留更多的上下文信息,从而提高其预测下一个词的能力。我们的过去解码正则化(Past Decode Regularization, PDR)方法在参数数量和训练时间方面几乎没有额外开销,使用单一softmax时,在Penn Treebank数据集上的词级困惑度达到55.6,在WikiText-2数据集上的词级困惑度达到63.5。此外,我们还展示了PDR与混合softmax结合使用时的效果提升,在这两个数据集上分别实现了53.8和60.5的词级困惑度。另外,我们的方法在字符级语言模型的Penn Treebank字符数据集上达到了1.169比特每字符的性能。这些结果在其各自的应用场景中均代表了新的最先进水平。

基准测试

基准方法指标
language-modelling-on-penn-treebank-characterPast Decode Reg. + AWD-LSTM-MoS + dyn. eval.
Bit per Character (BPC): 1.169
Number of params: 13.8M
language-modelling-on-penn-treebank-wordPast Decode Reg. + AWD-LSTM-MoS + dyn. eval.
Params: 22M
Test perplexity: 47.3
Validation perplexity: 48.0
language-modelling-on-wikitext-2Past Decode Reg. + AWD-LSTM-MoS + dyn. eval.
Number of params: 35M
Test perplexity: 40.3
Validation perplexity: 42.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供