6 个月前

摘要

卷积操作通过利用局部性来提升效率，但其代价是无法捕捉长距离上下文信息。自注意力机制已被引入以增强卷积神经网络（CNN）的非局部交互能力。近期研究证明，通过将注意力限制在局部区域，可以堆叠自注意力层，构建出完全基于注意力的网络。本文尝试打破这一限制，通过将二维自注意力分解为两个一维自注意力，实现更高效的计算。该方法显著降低了计算复杂度，同时允许在更大甚至全局范围内执行注意力操作。此外，我们还提出了一种位置敏感的自注意力设计。结合上述两种策略，我们构建出一种新型网络模块——位置敏感轴向注意力层（position-sensitive axial-attention layer），该模块可被堆叠以构建用于图像分类和密集预测任务的轴向注意力模型。我们在四个大规模数据集上验证了所提模型的有效性。特别地，我们的模型在ImageNet上超越了所有现有的独立自注意力模型。在COCO test-dev上，Axial-DeepLab相比自底向上的最先进方法提升了2.8%的PQ指标；而该先进性能由我们参数量减少3.8倍、计算效率提升27倍的小型变体实现。此外，Axial-DeepLab在Mapillary Vistas和Cityscapes数据集上也取得了当前最优的实验结果。

源 PDF