3 个月前

用 Performers 重新思考注意力机制

用 Performers 重新思考注意力机制

摘要

我们提出了 Performers,这是一种新型的 Transformer 架构,能够在无需依赖任何先验假设(如稀疏性或低秩性)的前提下,以可证明的精度近似常规的 softmax 全秩注意力 Transformer,同时仅需线性(而非二次)的空间与时间复杂度。为近似 softmax 注意力核函数,Performers 引入了一种新颖的快速注意力方法——正交随机特征快速注意力(Fast Attention Via positive Orthogonal Random features,简称 FAVOR+)。该方法在可扩展核方法领域可能具有独立的研究价值。此外,FAVOR+ 还可用于高效建模超出 softmax 范围的可核化注意力机制。这种强大的表征能力使得我们首次能够在大规模任务上准确比较 softmax 注意力与其他核函数的表现,而这些任务超出了传统 Transformer 的处理能力范围,从而有助于探索最优的注意力核函数。Performers 是一种完全线性的架构,与标准 Transformer 完全兼容,并具备坚实的理论保障:能够无偏或近乎无偏地估计注意力矩阵,实现统一收敛性,并保持较低的估计方差。我们在一系列多样化的任务上对 Performers 进行了测试,涵盖从像素预测、文本建模到蛋白质序列建模等多个领域。实验结果表明,Performers 在性能上与现有的其他高效稀疏与稠密注意力方法相当,充分展示了其所采用的新型注意力学习范式在实际应用中的有效性。

基准测试

基准方法指标
d4rl-on-d4rlPerformer
Average Reward: 63.8
image-generation-on-imagenet-64x64Performer (6 layers)
Bits per dim: 3.719
image-generation-on-imagenet-64x64Performer (12 layers)
Bits per dim: 3.636
language-modelling-on-wikitext-103Performer 125M
Test perplexity: 26.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供