4 个月前

变压器语言模型的动态评估

变压器语言模型的动态评估

摘要

本研究笔记结合了两种最近在语言模型领域取得显著进展的方法:Transformer 和动态评估。Transformer 通过堆叠自注意力层来捕捉序列数据中的长距离依赖关系。动态评估则根据近期的序列历史对模型进行拟合,使其能够为重复出现的序列模式分配更高的概率。通过将动态评估应用于 Transformer-XL 模型,我们在 enwik8 数据集上的表现从 0.99 提升至 0.94 bit/char,在 text8 数据集上的表现从 1.08 提升至 1.04 bit/char,以及在 WikiText-103 数据集上的困惑度从 18.3 降低到 16.4。

基准测试

基准方法指标
language-modelling-on-enwiki8Transformer-XL (24 layers, RMS dynamic eval, decay)
Bit per Character (BPC): 0.940
Number of params: 277M
language-modelling-on-hutter-prizeTransformer-XL + RMS dynamic eval
Bit per Character (BPC): 0.94
Number of params: 277M
language-modelling-on-text8Transformer-XL + RMS dynamic eval + decay
Bit per Character (BPC): 1.038
Number of params: 277M
language-modelling-on-wikitext-103Transformer-XL (RMS dynamic eval)
Number of params: 257M
Test perplexity: 16.4
Validation perplexity: 15.8
language-modelling-on-wikitext-103Transformer-XL (SGD dynamic eval)
Number of params: 257M
Test perplexity: 17.0
Validation perplexity: 16.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
变压器语言模型的动态评估 | 论文 | HyperAI超神经