3 个月前

将预训练的Transformer微调为RNN

将预训练的Transformer微调为RNN

摘要

Transformer 在自然语言生成任务中已超越循环神经网络(RNN),但其高昂的计算成本不容忽视——注意力机制的复杂度随序列长度呈二次方增长。近年来,高效型 Transformer 变体受到越来越多关注。其中,一种线性复杂度的循环变体在自回归生成任务中表现尤为出色。该方法通过随机化或启发式特征映射近似 softmax 注意力机制,但往往存在训练困难且性能难以达到最优的问题。本文旨在将预训练的 Transformer 模型转化为其高效的循环对应版本,在保持高准确率的同时显著提升推理效率。具体而言,我们提出一种“替换-微调”(swap-then-finetune)的流程:在现成的预训练 Transformer 模型中,用线性复杂度的循环注意力机制替代原有的 softmax 注意力模块,随后进行微调。通过学习得到的特征映射,该方法在效率与准确率之间实现了优于标准 Transformer 及其他循环变体的权衡。此外,我们还发现,相较于从零开始训练这些循环变体,所提出的微调过程具有更低的训练开销。鉴于当前自然语言处理任务日益依赖大规模预训练 Transformer 模型,本工作提供了一种切实可行的方案,在无需重复昂贵预训练过程的前提下,有效提升模型推理效率。

代码仓库

hazyresearch/lolcats
pytorch
GitHub 中提及
yashbonde/RNN-sim
pytorch
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-wikitext-103T2R + Pretrain
Test perplexity: 19.6
Validation perplexity: 19
machine-translation-on-wmt2014-english-frenchT2R + Pretrain
BLEU score: 42.1
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2014-english-germanT2R + Pretrain
BLEU score: 28.7
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2017-chineseT2R + Pretrain
BLEU: 23.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
将预训练的Transformer微调为RNN | 论文 | HyperAI超神经