
摘要
空间自注意力层以非局部(Non-Local)模块的形式,通过计算所有可能位置之间的成对相似性,在卷积神经网络中引入长程依赖关系。这类成对函数构成了非局部层有效性的基础,但同时也导致其复杂度在空间和时间上均随输入规模呈二次方增长。这一特性成为实际应用中的严重瓶颈,使得非局部模块难以应用于中等规模的输入。以往的研究主要通过修改底层矩阵运算来降低复杂度,而本文则致力于在保持非局部层完整表达能力的前提下,实现线性复杂度。我们通过将非局部模块视为三阶多项式函数的特例,克服了其效率瓶颈。这一理论视角使我们能够提出新型的快速非局部模块,通过将成对相似性的直接计算替换为逐元素乘法,将复杂度从二次方降低至线性,且性能无任何损失。所提出的“Poly-NL”方法在图像识别、实例分割和人脸检测等任务中均达到与当前最先进方法相媲美的性能,同时显著降低了计算开销。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| face-detection-on-wider-face-easy | Poly-NL(ResNet-50) | AP: 0.9637 |
| face-detection-on-wider-face-hard | Poly-NL(ResNet-50) | AP: 0.9276 |
| face-detection-on-wider-face-medium | Poly-NL(ResNet-50) | AP: 0.9571 |