
摘要
自注意力机制已被广泛应用于各种任务中。它通过计算所有位置特征的加权和来表示每个位置,因此能够捕捉计算机视觉任务中的长距离关系。然而,该机制在计算上较为耗时,因为注意力图是相对于所有其他位置进行计算的。在本文中,我们将注意力机制公式化为期望最大化(Expectation-Maximization, EM)的形式,并迭代估计一个更为紧凑的基础集,以用于计算注意力图。通过对这些基础进行加权求和,得到的表示矩阵具有低秩特性,并能减少输入中的噪声信息。所提出的期望最大化注意力(EMA)模块对输入的变化具有鲁棒性,并且在内存和计算方面也更加友好。此外,我们建立了基础维护和归一化方法以稳定其训练过程。我们在包括PASCAL VOC、PASCAL Context和COCO Stuff在内的多个流行语义分割基准数据集上进行了广泛的实验,并创下了新的记录。
代码仓库
PaddlePaddle/PaddleSeg
paddle
mfp0610/semantic-segmentaion
pytorch
open-mmlab/mmsegmentation
pytorch
hendraet/synthesis-in-style
pytorch
GitHub 中提及
XiaLiPKU/EMANet
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-bdd100k-val | EMANet | mIoU: 61.4 |
| semantic-segmentation-on-coco-stuff-test | EMANet | mIoU: 39.9% |
| semantic-segmentation-on-pascal-context | EMANet | mIoU: 53.1 |