7 个月前

摘要

自注意力机制已被广泛应用于各种任务中。它通过计算所有位置特征的加权和来表示每个位置，因此能够捕捉计算机视觉任务中的长距离关系。然而，该机制在计算上较为耗时，因为注意力图是相对于所有其他位置进行计算的。在本文中，我们将注意力机制公式化为期望最大化（Expectation-Maximization, EM）的形式，并迭代估计一个更为紧凑的基础集，以用于计算注意力图。通过对这些基础进行加权求和，得到的表示矩阵具有低秩特性，并能减少输入中的噪声信息。所提出的期望最大化注意力（EMA）模块对输入的变化具有鲁棒性，并且在内存和计算方面也更加友好。此外，我们建立了基础维护和归一化方法以稳定其训练过程。我们在包括PASCAL VOC、PASCAL Context和COCO Stuff在内的多个流行语义分割基准数据集上进行了广泛的实验，并创下了新的记录。

源 PDF