
摘要
像素级回归是细粒度计算机视觉任务中最常见的问题之一,例如关键点热图估计和分割掩码生成。这类回归任务极具挑战性,主要在于需在较低计算开销的前提下,对高分辨率输入/输出建模长程依赖关系,以准确捕捉高度非线性的像素级语义信息。尽管深度卷积神经网络(DCNNs)中的注意力机制已广泛用于增强长程依赖建模,但诸如非局部块(Nonlocal blocks)等针对元素的注意力机制通常结构复杂且对噪声敏感;而大多数简化的注意力混合结构则倾向于在多种任务类型之间寻求折中方案。本文提出一种新型的极化自注意力(Polarized Self-Attention, PSA)模块,通过两项关键设计显著提升像素级回归的质量:(1)极化滤波(Polarized Filtering):在通道注意力与空间注意力的计算过程中,分别保持高内部分辨率,同时将输入张量沿对应维度完全压缩(坍缩),从而实现高效且精细的特征建模;(2)增强机制(Enhancement):引入直接适配典型细粒度回归输出分布的非线性结构,例如二维高斯分布(用于关键点热图)或二维二项分布(用于二值分割掩码)。实验表明,PSA模块在通道仅分支与空间仅分支中已充分挖掘其表示能力,因此其串行与并行结构之间的性能差异极小。在二维姿态估计与语义分割基准测试中,PSA显著提升了标准基线模型2–4个百分点,同时将当前最先进方法的性能进一步提升了1–2个百分点。
代码仓库
PaddlePaddle/PaddleSeg
paddle
DeLightCMU/PSA
官方
pytorch
GitHub 中提及
sithu31296/pose-estimation
pytorch
GitHub 中提及
sithu31296/semantic-segmentation
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keypoint-detection-on-coco | UDP-Pose-PSA(384x288) | Validation AP: 79.5 |
| pose-estimation-on-coco-test-dev | UDP-Pose-PSA(384x288) | AP: 79.5 AP50: 93.6 AP75: 85.9 APL: 84.3 APM: 76.3 AR: 81.9 |
| pose-estimation-on-coco-test-dev | UDP-Pose-PSA(256x192) | AP: 78.9 AP50: 93.6 AP75: 85.8 APL: 83.6 APM: 76.1 AR: 81.4 |
| semantic-segmentation-on-cityscapes-val | HRNetV2-OCR+PSA | mIoU: 86.93 |