6 个月前

摘要

Transformer 模型因其计算需求高，尤其在处理长序列时成本极为高昂，原因在于其自注意力（self-attention）模块的时间与空间复杂度随序列长度呈二次增长。尽管众多研究者致力于设计新型自注意力机制或引入新参数以克服这一瓶颈，但其中大部分方法难以继承大规模预训练模型的权重。在本工作中，我们从另一角度解决了 Transformer 的效率问题。我们提出了一种名为傅里叶 Transformer（Fourier Transformer）的简洁而高效的方法，通过利用现成的快速傅里叶变换（Fast Fourier Transform, FFT）算子，逐步消除隐藏状态序列中的冗余信息，实现离散余弦变换（Discrete Cosine Transform, DCT）。该方法在显著降低计算开销的同时，仍能有效继承多种大规模预训练模型的参数。实验结果表明，在长程建模基准测试 LRA 上，我们的模型在所有基于 Transformer 的方法中达到了最先进性能，且在速度与内存占用方面均实现显著提升。在包括 CNN/DailyMail 和 ELI5 在内的生成式序列到序列任务中，通过继承 BART 的预训练权重，我们的模型不仅优于标准 BART，还超越了其他高效模型。相关代码已公开，可访问 https://github.com/LUMIA-Group/FourierTransformer。

源 PDF