3 个月前

注意力机制是否优于矩阵分解?

注意力机制是否优于矩阵分解?

摘要

作为现代深度学习的核心组件,注意力机制(尤其是自注意力机制)在全局相关性建模中发挥着至关重要的作用。然而,在建模全局上下文时,人工设计的注意力机制是否不可替代?我们的一项令人瞩目的发现是:在编码长距离依赖关系方面,自注意力机制在性能与计算成本上均不如二十年前提出的矩阵分解(Matrix Decomposition, MD)模型。本文将全局上下文建模问题建模为低秩恢复问题,并表明其优化算法可被用于设计全局信息模块。基于此,本文提出了一系列名为“汉堡”(Hamburgers)的新型结构:通过利用优化算法求解矩阵分解,将输入表示分解为子矩阵,并重构出低秩嵌入表示。当对通过矩阵分解传播的梯度进行精心处理时,采用不同矩阵分解方式的“汉堡”结构在性能上可与主流的自注意力机制相媲美。我们在视觉任务中开展了全面实验,这些任务对学习全局上下文信息至关重要,包括语义分割与图像生成,实验结果表明,“汉堡”结构在各项指标上均显著优于自注意力及其变体。

代码仓库

plumprc/MTS-Mixers
pytorch
GitHub 中提及
toqitahamid/gasformer
pytorch
GitHub 中提及
Gsunshine/Enjoy-Hamburger
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
conditional-image-generation-on-imagenetHamGAN
FID: 14.80
Inception score: 58.75
semantic-segmentation-on-ade20kLight-Ham (VAN-Base)
GFLOPs (512 x 512): 34.4
Params (M): 27.4
Validation mIoU: 49.6
semantic-segmentation-on-ade20kLight-Ham (VAN-Small, D=256)
GFLOPs (512 x 512): 15.8
Params (M): 13.8
Validation mIoU: 45.2
semantic-segmentation-on-ade20kLight-Ham (VAN-Huge)
GFLOPs (512 x 512): 71.8
Params (M): 61.1
Validation mIoU: 51.5
semantic-segmentation-on-ade20kLight-Ham (VAN-Large)
GFLOPs (512 x 512): 55.0
Params (M): 45.6
Validation mIoU: 51.0
semantic-segmentation-on-ade20kHamNet (ResNet-101)
Validation mIoU: 46.8
semantic-segmentation-on-ade20k-valLight-Ham (VAN-Large, 46M, IN-1k, MS)
mIoU: 51.0
semantic-segmentation-on-ade20k-valLight-Ham (VAN-Base, 27M, IN-1k, MS)
mIoU: 49.6
semantic-segmentation-on-ade20k-valLight-Ham (VAN-Huge, 61M, IN-1k, MS)
mIoU: 51.5
semantic-segmentation-on-pascal-contextHamNet (ResNet-101)
mIoU: 55.2
semantic-segmentation-on-pascal-voc-2012HamNet w/o COCO (ResNet-101)
Mean IoU: 85.9%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
注意力机制是否优于矩阵分解? | 论文 | HyperAI超神经