3 个月前

Transformer 质量的线性时间实现

Transformer 质量的线性时间实现

摘要

我们重新审视了Transformer架构中的设计选择,并提出了一系列方法,以解决其在处理长序列时的固有缺陷。首先,我们提出了一种名为门控注意力单元(gated attention unit)的简单结构,该结构允许在几乎不损失模型质量的前提下,使用性能较弱的单头注意力机制。随后,我们进一步提出一种与该新结构互补的线性近似方法,该方法具有良好的加速器友好性,且在模型性能上表现出极强的竞争力。由此构建的模型被命名为FLASH,在短序列(512)和长序列(8K)两种上下文长度下,其困惑度(perplexity)均达到改进型Transformer的水平。在自回归语言建模任务中,FLASH在Wiki-40B数据集上实现了最高达4.9倍的训练加速,在PG-19数据集上更是达到12.1倍的加速;在C4数据集的掩码语言建模任务中,也实现了4.8倍的训练加速。

代码仓库

lucidrains/FLASH-pytorch
pytorch
GitHub 中提及
zhuiyitechnology/gau-alpha
tf
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-wiki-40bFLASH-Quad-8k
Perplexity: 14.998

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供