3 个月前

信息路径假说:Transformer 是动态自集成模型

信息路径假说:Transformer 是动态自集成模型

摘要

Transformer模型采用密集的自注意力机制,赋予其在长距离依赖建模方面极强的灵活性。在深度Transformer的多层结构中,可能的连接模式数量呈指数级增长。然而,其中仅有极少数对网络性能有实际贡献,更少部分是不可或缺的。我们假设,在Transformer内部存在一些稀疏连接的子网络,称为信息通路(information pathways),这些通路可以独立进行训练。然而,这些通路具有动态性(即依赖于输入),这使得在训练过程中难以对密集自注意力机制进行有效剪枝。尽管如此,这些通路的整体分布通常具有可预测性。基于这一观察,我们提出了一种通用的训练策略——随机子采样自注意力(Stochastically Subsampled Attention, SSA):该方法在训练阶段可将自注意力机制的内存占用和计算成本降低4至8倍,同时兼具正则化效果,从而提升模型在密集训练下的泛化能力。我们进一步证明,网络内部通过子采样通路可构建一个子模型集成(ensemble of sub-models),其性能优于对应的密集注意力模型。我们在多种自然语言处理、计算机视觉以及图学习任务中,涵盖生成式与判别式设置,进行了广泛实验,为上述主张提供了充分的实证支持,充分验证了所提方法的有效性。

代码仓库

shamim-hussain/ssa
官方
GitHub 中提及

基准测试

基准方法指标
graph-regression-on-pcqm4mv2-lscEGT+SSA+Self-ensemble
Validation MAE: 0.0865
graph-regression-on-pcqm4mv2-lscEGT+SSA
Validation MAE: 0.0876
image-classification-on-imagenetSwin-T+SSA
Top 1 Accuracy: 81.89%
language-modelling-on-enwiki8Transformer+SSA
Bit per Character (BPC): 1.024
language-modelling-on-wikitext-103Transformer+SSA+Self-ensemble
Test perplexity: 17.18
Validation perplexity: 16.54
language-modelling-on-wikitext-103Transformer+SSA
Test perplexity: 17.60
Validation perplexity: 16.91

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
信息路径假说:Transformer 是动态自集成模型 | 论文 | HyperAI超神经