
摘要
泛化能力无疑是统计语言建模研究中最重要的目标。公开可用的基准测试以及附带开源代码发表的论文,对推动该领域发展起到了关键作用。然而,往往很难,甚至在某些情况下完全无法复现论文中报告的结果。本文提出一种简单框架,旨在提升语言建模在泛化能力方面的研究水平。我们建议,在未来的研究发表中,不仅公开代码,还应提供模型在开发集(dev set)和测试集(test set)上的预测概率。这样,研究人员可以轻松地将新模型加入现有集成(ensemble)中。该方法具有显著优势:能够更便捷地判断新提出的模型是否真正与当前基线模型具有互补性。因此,科学界无需反复为旧有方法赋予新名称,便可实现更快速的进步。此外,该方法促进了思想的多样性:研究者无需构建一个全新的、性能最优的模型来获得关注,只需开发出能够捕捉其他模型未能学习到的模式的新模型即可。这意味着,即便模型性能并非最优,也可能具有重要价值。令人瞩目的是,我们的方法已在多个语言建模基准测试中取得了新的最先进成果,性能提升最高达10%。
代码仓库
davidherel/sota_lm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-penn-treebank-word | Ensemble of All | Test perplexity: 47.31 Validation perplexity: 48.92 |
| language-modelling-on-wikitext-103 | Ensemble of All | Test perplexity: 13.29 Validation perplexity: 13.11 |
| language-modelling-on-wikitext-2 | Ensemble of All | Test perplexity: 53.73 Validation perplexity: 55.4 |