
摘要
作为现代深度学习的核心组件,注意力机制(尤其是自注意力机制)在全局相关性建模中发挥着至关重要的作用。然而,在建模全局上下文时,人工设计的注意力机制是否不可替代?我们的一项令人瞩目的发现是:在编码长距离依赖关系方面,自注意力机制在性能与计算成本上均不如二十年前提出的矩阵分解(Matrix Decomposition, MD)模型。本文将全局上下文建模问题建模为低秩恢复问题,并表明其优化算法可被用于设计全局信息模块。基于此,本文提出了一系列名为“汉堡”(Hamburgers)的新型结构:通过利用优化算法求解矩阵分解,将输入表示分解为子矩阵,并重构出低秩嵌入表示。当对通过矩阵分解传播的梯度进行精心处理时,采用不同矩阵分解方式的“汉堡”结构在性能上可与主流的自注意力机制相媲美。我们在视觉任务中开展了全面实验,这些任务对学习全局上下文信息至关重要,包括语义分割与图像生成,实验结果表明,“汉堡”结构在各项指标上均显著优于自注意力及其变体。
代码仓库
plumprc/MTS-Mixers
pytorch
GitHub 中提及
toqitahamid/gasformer
pytorch
GitHub 中提及
Gsunshine/Enjoy-Hamburger
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| conditional-image-generation-on-imagenet | HamGAN | FID: 14.80 Inception score: 58.75 |
| semantic-segmentation-on-ade20k | Light-Ham (VAN-Base) | GFLOPs (512 x 512): 34.4 Params (M): 27.4 Validation mIoU: 49.6 |
| semantic-segmentation-on-ade20k | Light-Ham (VAN-Small, D=256) | GFLOPs (512 x 512): 15.8 Params (M): 13.8 Validation mIoU: 45.2 |
| semantic-segmentation-on-ade20k | Light-Ham (VAN-Huge) | GFLOPs (512 x 512): 71.8 Params (M): 61.1 Validation mIoU: 51.5 |
| semantic-segmentation-on-ade20k | Light-Ham (VAN-Large) | GFLOPs (512 x 512): 55.0 Params (M): 45.6 Validation mIoU: 51.0 |
| semantic-segmentation-on-ade20k | HamNet (ResNet-101) | Validation mIoU: 46.8 |
| semantic-segmentation-on-ade20k-val | Light-Ham (VAN-Large, 46M, IN-1k, MS) | mIoU: 51.0 |
| semantic-segmentation-on-ade20k-val | Light-Ham (VAN-Base, 27M, IN-1k, MS) | mIoU: 49.6 |
| semantic-segmentation-on-ade20k-val | Light-Ham (VAN-Huge, 61M, IN-1k, MS) | mIoU: 51.5 |
| semantic-segmentation-on-pascal-context | HamNet (ResNet-101) | mIoU: 55.2 |
| semantic-segmentation-on-pascal-voc-2012 | HamNet w/o COCO (ResNet-101) | Mean IoU: 85.9% |