3 个月前

基于Transformer的语义分割中的解码器重思:一种压缩视角

基于Transformer的语义分割中的解码器重思:一种压缩视角

摘要

基于Transformer的语义分割的前沿方法通常采用Transformer解码器,通过交叉注意力机制从图像嵌入中提取额外的嵌入表示,利用自注意力机制对图像嵌入或额外嵌入进行优化,并通过点积操作将图像嵌入投影到额外嵌入上。尽管这些方法取得了显著成效,但其设计多基于经验性构造,缺乏理论支撑与可解释性,从而限制了其向更系统化、原理性改进的方向发展。本文提出,语义分割与数据压缩之间存在本质联系,尤其体现在Transformer解码器与主成分分析(Principal Component Analysis, PCA)之间的深层关联。基于这一视角,我们提出一种全注意力机制、可解释的白盒解码器——用于原理性语义分割的DEcoder for PrIncipled semantiC segemenTation(DEPICT),其理论解释如下:1)自注意力操作通过优化图像嵌入,构建一个与监督信号对齐且保留最多信息的理想主子空间;2)交叉注意力操作旨在对优化后的图像嵌入进行低秩近似,期望获得该主子空间的一组标准正交基,这些基向量对应于预定义的语义类别;3)点积操作则生成紧凑的图像嵌入表示,作为最终的语义分割掩码。在ADE20K数据集上的实验结果表明,DEPICT在性能上持续优于其黑盒对应模型Segmenter,同时具备轻量化与更强鲁棒性的优势。

代码仓库

qishuaiwen/depict
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-ade20k-valDEPICT-SA (ViT-L 640x640 single-scale)
mIoU: 52.9
semantic-segmentation-on-ade20k-valDEPICT-SA (ViT-L 640x640 multi-scale)
mIoU: 54.3
semantic-segmentation-on-cityscapes-valDEPICT-SA (ViT-L single-scale)
mIoU: 78.8
semantic-segmentation-on-cityscapes-valDEPICT-SA (ViT-L multi-scale)
mIoU: 81.0
semantic-segmentation-on-pascal-contextDEPICT-SA (ViT-L single-scale)
mIoU: 57.9
semantic-segmentation-on-pascal-contextDEPICT-SA (ViT-L multi-scale)
mIoU: 58.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Transformer的语义分割中的解码器重思:一种压缩视角 | 论文 | HyperAI超神经