3 个月前

分段循环Transformer:一种高效的序列到序列模型

分段循环Transformer:一种高效的序列到序列模型

摘要

Transformer 在语言和视觉等多个领域均展现出卓越的性能。然而,其计算开销随序列长度呈二次增长,这使得其在资源受限的应用场景中难以部署。为应对这一挑战,我们提出将整个序列划分为多个段落,并对各段落分别应用注意力机制。本文提出一种分段循环Transformer(Segmented Recurrent Transformer, SRformer),该模型结合了分段(局部)注意力与循环注意力机制。通过循环注意力在段间聚合信息,有效弥补了因缩小注意力窗口长度所导致的性能损失。SRformer 利用循环累积-放电(Recurrent Accumulate-and-Fire, RAF)神经元固有的记忆能力,实现对键(keys)与值(values)累积乘积的动态更新。分段注意力机制与轻量级 RAF 神经元共同保障了所提模型的高效性。该方法在保持较低计算与内存开销的前提下,赋予模型序列化处理能力。我们将该方法应用于 T5 和 BART 等Transformer模型,在 CNN-DailyMail、XSUM、ArXiv 和 MediaSUM 等摘要生成数据集上进行了测试。实验结果表明,采用不同尺寸的分段输入时,所提模型在 ROUGE-1 指标上比传统分段Transformer提升 6% 至 22%,并优于其他循环Transformer方法。此外,相较于全注意力机制,该模型将交叉注意力的计算复杂度降低了约 40%。

代码仓库

yinghanlong/SRtransformer
jax
GitHub 中提及

基准测试

基准方法指标
abstractive-text-summarization-on-cnn-dailySRformer-BART
ROUGE-1: 43.19
ROUGE-2: 19.80
ROUGE-L: 40.40
text-summarization-on-arxivSRformer-BART
ROUGE-1: 42.99
text-summarization-on-mediasumSRformer-BART
ROUGE-1: 32.36
text-summarization-on-xsum-2SRformer-BART
ROUGE-1: 39.02

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
分段循环Transformer:一种高效的序列到序列模型 | 论文 | HyperAI超神经