4 个月前

基于更深层自注意力机制的字符级语言模型

基于更深层自注意力机制的字符级语言模型

摘要

长短期记忆网络(LSTMs)和其他递归神经网络(RNN)变体在字符级语言建模中表现出色。这些模型通常使用截断时间反向传播进行训练,人们普遍认为它们的成功源于其能够记住长期上下文的能力。在本文中,我们展示了具有固定上下文的深度(64层)变换器模型显著优于RNN变体,在两个流行的基准测试中达到了最先进的水平:text8上的每字符1.13比特和enwik8上的每字符1.06比特。为了在如此深的网络中获得良好的结果,我们证明了在中间网络层和中间序列位置添加辅助损失的重要性。

代码仓库

基准测试

基准方法指标
language-modelling-on-enwiki864-layer Character Transformer Model
Bit per Character (BPC): 1.11
Number of params: 44M
language-modelling-on-enwiki8Transformer (64 layers)
Bit per Character (BPC): 1.06
Number of params: 235M
language-modelling-on-hutter-prize64-layer Character Transformer Model
Bit per Character (BPC): 1.06
Number of params: 235M
language-modelling-on-hutter-prize12-layer Character Transformer Model
Bit per Character (BPC): 1.11
Number of params: 44M
language-modelling-on-text812-layer Character Transformer Model
Bit per Character (BPC): 1.18
Number of params: 44M
language-modelling-on-text864-layer Character Transformer Model
Bit per Character (BPC): 1.13
Number of params: 235M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于更深层自注意力机制的字符级语言模型 | 论文 | HyperAI超神经