3 个月前

当注意力遇见快速循环:基于降低计算量的语言模型训练

当注意力遇见快速循环:基于降低计算量的语言模型训练

摘要

大型语言模型的训练正因计算时间与成本的持续增长而变得愈发困难。在本工作中,我们提出SRU++——一种高效序列建模架构,该架构融合了快速循环机制与注意力机制,兼具强大的建模能力与卓越的训练效率。在Enwik8、Wiki-103和Billion Word等标准语言建模任务上,我们的模型在实现更优的每字符比特数(bits-per-character)与困惑度(perplexity)的同时,训练成本仅为当前表现最优的Transformer模型的1/3至1/10。例如,在8张GPU的设备上仅需1.6天的训练时间,SRU++即在Enwik8数据集上达到了当前最优水平。此外,我们进一步证明,SRU++仅需极少的注意力计算即可接近最优性能。这些结果表明,将快速循环机制与轻量级注意力相结合,是一种极具前景的加速模型训练与推理的有效路径。

代码仓库

asappresearch/sru
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-enwiki8SRU++ Base
Bit per Character (BPC): 0.97
Number of params: 108M
language-modelling-on-enwiki8SRU++ Large
Bit per Character (BPC): 0.95
Number of params: 195M
language-modelling-on-one-billion-wordSRU++ Large
Number of params: 465M
PPL: 23.5
language-modelling-on-one-billion-wordSRU++
Number of params: 328M
PPL: 25.1
language-modelling-on-wikitext-103SRU++ Base
Number of params: 148M
Test perplexity: 18.3
Validation perplexity: 17.5
language-modelling-on-wikitext-103SRU++ Large
Number of params: 234M
Test perplexity: 17.1
Validation perplexity: 16.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
当注意力遇见快速循环:基于降低计算量的语言模型训练 | 论文 | HyperAI超神经