3 个月前

Transformer即RNN:具有线性注意力的快速自回归Transformer

Transformer即RNN:具有线性注意力的快速自回归Transformer

摘要

Transformer 在多项任务中表现出色,但由于其计算复杂度与输入序列长度呈二次关系($\mathcal{O}(N^2)$),在处理极长序列时效率极低,难以实用。为解决这一瓶颈,本文将自注意力机制重新表述为核特征映射之间的线性点积,并利用矩阵乘法的结合律,将复杂度从 $\mathcal{O}(N^2)$ 降低至 $\mathcal{O}(N)$,其中 $N$ 表示序列长度。我们证明,该形式支持迭代实现,显著加速自回归 Transformer 的推理过程,并揭示了其与循环神经网络(Recurrent Neural Networks, RNNs)之间的内在联系。实验表明,所提出的线性 Transformer 在性能上可与标准 Transformer 相媲美,且在长序列自回归预测任务中,速度提升最高可达 4000 倍。

基准测试

基准方法指标
d4rl-on-d4rlLinear Transformer
Average Reward: 64.4
language-modelling-on-wikitext-103Linear Attention 125M
Test perplexity: 25.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Transformer即RNN:具有线性注意力的快速自回归Transformer | 论文 | HyperAI超神经