Command Palette
Search for a command to run...
高效注意力机制:线性复杂度的注意力模型
高效注意力机制:线性复杂度的注意力模型
["name": "Shen Zhuoran\u2020\u2217" "affiliation": "Independent Researcher\n4244 University Way NE #85406 Seattle WA 98105 United States\ncmsflash99@gmail.com" "name": "Zhang Mingyuan \u2021" "affiliation": "SenseTime International\n182 Cecil Street #36-02 Frasers Tower Singapore 069547\nzhangmingyuan
摘要
点积注意力在计算机视觉和自然语言处理中有着广泛的应用。然而,其内存和计算成本随着输入规模的增加而呈二次增长。这种增长限制了其在高分辨率输入上的应用。为了解决这一缺点,本文提出了一种新型高效的注意力机制,该机制在保持与点积注意力等效的同时,显著降低了内存和计算成本。资源效率的提高使得注意力模块可以更广泛且灵活地集成到网络中,从而提高了模型的准确性。实证评估证明了其优势的有效性。高效的注意力模块在MS-COCO 2017数据集上显著提升了目标检测器和实例分割器的性能。此外,资源效率的提升使得复杂的模型也能使用注意力机制,而在这些模型中,高昂的成本通常会禁止使用点积注意力。以立体深度估计为例,在Scene Flow数据集上,一种具有高效注意力机制的模型达到了最先进的精度。代码可在https://github.com/cmsflash/efficient-attention 获取。