6 个月前

自然语言处理

自然语言处理

Jungo Kasai Hao Peng Yizhe Zhang Dani Yogatama Gabriel Ilharco Nikolaos Pappas Yi Mao Weizhu Chen Noah A. Smith

摘要

Transformer 在自然语言生成任务中已超越循环神经网络（RNN），但其高昂的计算成本不容忽视——注意力机制的复杂度随序列长度呈二次方增长。近年来，高效型 Transformer 变体受到越来越多关注。其中，一种线性复杂度的循环变体在自回归生成任务中表现尤为出色。该方法通过随机化或启发式特征映射近似 softmax 注意力机制，但往往存在训练困难且性能难以达到最优的问题。本文旨在将预训练的 Transformer 模型转化为其高效的循环对应版本，在保持高准确率的同时显著提升推理效率。具体而言，我们提出一种“替换-微调”（swap-then-finetune）的流程：在现成的预训练 Transformer 模型中，用线性复杂度的循环注意力机制替代原有的 softmax 注意力模块，随后进行微调。通过学习得到的特征映射，该方法在效率与准确率之间实现了优于标准 Transformer 及其他循环变体的权衡。此外，我们还发现，相较于从零开始训练这些循环变体，所提出的微调过程具有更低的训练开销。鉴于当前自然语言处理任务日益依赖大规模预训练 Transformer 模型，本工作提供了一种切实可行的方案，在无需重复昂贵预训练过程的前提下，有效提升模型推理效率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Jungo Kasai Hao Peng Yizhe Zhang Dani Yogatama Gabriel Ilharco Nikolaos Pappas Yi Mao Weizhu Chen Noah A. Smith

摘要

Transformer 在自然语言生成任务中已超越循环神经网络（RNN），但其高昂的计算成本不容忽视——注意力机制的复杂度随序列长度呈二次方增长。近年来，高效型 Transformer 变体受到越来越多关注。其中，一种线性复杂度的循环变体在自回归生成任务中表现尤为出色。该方法通过随机化或启发式特征映射近似 softmax 注意力机制，但往往存在训练困难且性能难以达到最优的问题。本文旨在将预训练的 Transformer 模型转化为其高效的循环对应版本，在保持高准确率的同时显著提升推理效率。具体而言，我们提出一种“替换-微调”（swap-then-finetune）的流程：在现成的预训练 Transformer 模型中，用线性复杂度的循环注意力机制替代原有的 softmax 注意力模块，随后进行微调。通过学习得到的特征映射，该方法在效率与准确率之间实现了优于标准 Transformer 及其他循环变体的权衡。此外，我们还发现，相较于从零开始训练这些循环变体，所提出的微调过程具有更低的训练开销。鉴于当前自然语言处理任务日益依赖大规模预训练 Transformer 模型，本工作提供了一种切实可行的方案，在无需重复昂贵预训练过程的前提下，有效提升模型推理效率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供