
摘要
基于Transformer的语义分割的前沿方法通常采用Transformer解码器,通过交叉注意力机制从图像嵌入中提取额外的嵌入表示,利用自注意力机制对图像嵌入或额外嵌入进行优化,并通过点积操作将图像嵌入投影到额外嵌入上。尽管这些方法取得了显著成效,但其设计多基于经验性构造,缺乏理论支撑与可解释性,从而限制了其向更系统化、原理性改进的方向发展。本文提出,语义分割与数据压缩之间存在本质联系,尤其体现在Transformer解码器与主成分分析(Principal Component Analysis, PCA)之间的深层关联。基于这一视角,我们提出一种全注意力机制、可解释的白盒解码器——用于原理性语义分割的DEcoder for PrIncipled semantiC segemenTation(DEPICT),其理论解释如下:1)自注意力操作通过优化图像嵌入,构建一个与监督信号对齐且保留最多信息的理想主子空间;2)交叉注意力操作旨在对优化后的图像嵌入进行低秩近似,期望获得该主子空间的一组标准正交基,这些基向量对应于预定义的语义类别;3)点积操作则生成紧凑的图像嵌入表示,作为最终的语义分割掩码。在ADE20K数据集上的实验结果表明,DEPICT在性能上持续优于其黑盒对应模型Segmenter,同时具备轻量化与更强鲁棒性的优势。
代码仓库
qishuaiwen/depict
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-ade20k-val | DEPICT-SA (ViT-L 640x640 single-scale) | mIoU: 52.9 |
| semantic-segmentation-on-ade20k-val | DEPICT-SA (ViT-L 640x640 multi-scale) | mIoU: 54.3 |
| semantic-segmentation-on-cityscapes-val | DEPICT-SA (ViT-L single-scale) | mIoU: 78.8 |
| semantic-segmentation-on-cityscapes-val | DEPICT-SA (ViT-L multi-scale) | mIoU: 81.0 |
| semantic-segmentation-on-pascal-context | DEPICT-SA (ViT-L single-scale) | mIoU: 57.9 |
| semantic-segmentation-on-pascal-context | DEPICT-SA (ViT-L multi-scale) | mIoU: 58.6 |