4 个月前

高效注意力机制：线性复杂度的注意力模型

Zhuoran Shen; Mingyuan Zhang; Haiyu Zhao; Shuai Yi; Hongsheng Li

摘要

点积注意力在计算机视觉和自然语言处理中有着广泛的应用。然而，其内存和计算成本随着输入规模的增加而呈二次增长。这种增长限制了其在高分辨率输入上的应用。为了解决这一缺点，本文提出了一种新型高效的注意力机制，该机制在保持与点积注意力等效的同时，显著降低了内存和计算成本。资源效率的提高使得注意力模块可以更广泛且灵活地集成到网络中，从而提高了模型的准确性。实证评估证明了其优势的有效性。高效的注意力模块在MS-COCO 2017数据集上显著提升了目标检测器和实例分割器的性能。此外，资源效率的提升使得复杂的模型也能使用注意力机制，而在这些模型中，高昂的成本通常会禁止使用点积注意力。以立体深度估计为例，在Scene Flow数据集上，一种具有高效注意力机制的模型达到了最先进的精度。代码可在https://github.com/cmsflash/efficient-attention 获取。