
摘要
Transformer模型采用密集的自注意力机制,赋予其在长距离依赖建模方面极强的灵活性。在深度Transformer的多层结构中,可能的连接模式数量呈指数级增长。然而,其中仅有极少数对网络性能有实际贡献,更少部分是不可或缺的。我们假设,在Transformer内部存在一些稀疏连接的子网络,称为信息通路(information pathways),这些通路可以独立进行训练。然而,这些通路具有动态性(即依赖于输入),这使得在训练过程中难以对密集自注意力机制进行有效剪枝。尽管如此,这些通路的整体分布通常具有可预测性。基于这一观察,我们提出了一种通用的训练策略——随机子采样自注意力(Stochastically Subsampled Attention, SSA):该方法在训练阶段可将自注意力机制的内存占用和计算成本降低4至8倍,同时兼具正则化效果,从而提升模型在密集训练下的泛化能力。我们进一步证明,网络内部通过子采样通路可构建一个子模型集成(ensemble of sub-models),其性能优于对应的密集注意力模型。我们在多种自然语言处理、计算机视觉以及图学习任务中,涵盖生成式与判别式设置,进行了广泛实验,为上述主张提供了充分的实证支持,充分验证了所提方法的有效性。
代码仓库
shamim-hussain/ssa
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| graph-regression-on-pcqm4mv2-lsc | EGT+SSA+Self-ensemble | Validation MAE: 0.0865 |
| graph-regression-on-pcqm4mv2-lsc | EGT+SSA | Validation MAE: 0.0876 |
| image-classification-on-imagenet | Swin-T+SSA | Top 1 Accuracy: 81.89% |
| language-modelling-on-enwiki8 | Transformer+SSA | Bit per Character (BPC): 1.024 |
| language-modelling-on-wikitext-103 | Transformer+SSA+Self-ensemble | Test perplexity: 17.18 Validation perplexity: 16.54 |
| language-modelling-on-wikitext-103 | Transformer+SSA | Test perplexity: 17.60 Validation perplexity: 16.91 |