3 个月前

语言建模领域的前沿进展

摘要

泛化能力无疑是统计语言建模研究中最重要的目标。公开可用的基准测试以及附带开源代码发表的论文，对推动该领域发展起到了关键作用。然而，往往很难，甚至在某些情况下完全无法复现论文中报告的结果。本文提出一种简单框架，旨在提升语言建模在泛化能力方面的研究水平。我们建议，在未来的研究发表中，不仅公开代码，还应提供模型在开发集（dev set）和测试集（test set）上的预测概率。这样，研究人员可以轻松地将新模型加入现有集成（ensemble）中。该方法具有显著优势：能够更便捷地判断新提出的模型是否真正与当前基线模型具有互补性。因此，科学界无需反复为旧有方法赋予新名称，便可实现更快速的进步。此外，该方法促进了思想的多样性：研究者无需构建一个全新的、性能最优的模型来获得关注，只需开发出能够捕捉其他模型未能学习到的模式的新模型即可。这意味着，即便模型性能并非最优，也可能具有重要价值。令人瞩目的是，我们的方法已在多个语言建模基准测试中取得了新的最先进成果，性能提升最高达10%。

代码仓库

davidherel/sota_lm

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
language-modelling-on-penn-treebank-word	Ensemble of All	Test perplexity: 47.31 Validation perplexity: 48.92
language-modelling-on-wikitext-103	Ensemble of All	Test perplexity: 13.29 Validation perplexity: 13.11
language-modelling-on-wikitext-2	Ensemble of All	Test perplexity: 53.73 Validation perplexity: 55.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供