6 个月前

摘要

基于Transformer的语义分割的前沿方法通常采用Transformer解码器，通过交叉注意力机制从图像嵌入中提取额外的嵌入表示，利用自注意力机制对图像嵌入或额外嵌入进行优化，并通过点积操作将图像嵌入投影到额外嵌入上。尽管这些方法取得了显著成效，但其设计多基于经验性构造，缺乏理论支撑与可解释性，从而限制了其向更系统化、原理性改进的方向发展。本文提出，语义分割与数据压缩之间存在本质联系，尤其体现在Transformer解码器与主成分分析（Principal Component Analysis, PCA）之间的深层关联。基于这一视角，我们提出一种全注意力机制、可解释的白盒解码器——用于原理性语义分割的DEcoder for PrIncipled semantiC segemenTation（DEPICT），其理论解释如下：1）自注意力操作通过优化图像嵌入，构建一个与监督信号对齐且保留最多信息的理想主子空间；2）交叉注意力操作旨在对优化后的图像嵌入进行低秩近似，期望获得该主子空间的一组标准正交基，这些基向量对应于预定义的语义类别；3）点积操作则生成紧凑的图像嵌入表示，作为最终的语义分割掩码。在ADE20K数据集上的实验结果表明，DEPICT在性能上持续优于其黑盒对应模型Segmenter，同时具备轻量化与更强鲁棒性的优势。

源 PDF