6 个月前

摘要

在本工作中，我们提出一种基于Transformer的新式正则化方法，旨在提升弱监督语义分割（Weakly Supervised Semantic Segmentation, WSSS）中的目标定位能力。在图像级WSSS任务中，通常采用类别激活图（Class Activation Map, CAM）生成伪分割标签以实现目标定位。然而，传统CAM存在局部激活问题，为此，已有方法引入一致性正则化（consistency regularization），以保持不同图像增强视图下激活强度的一致性。但此类方法忽略了单个CAM内部区域之间的成对关系，而这些关系蕴含了重要的上下文信息，理应也具备跨视图的不变性。为此，我们提出一种全新的成对一致性正则化方法（All-Pairs Consistency Regularization, ACR）。给定一对图像增强视图，我们的方法不仅约束两视图间激活强度的一致性，还进一步确保每个视图内部区域间的亲和性（affinity）保持一致。我们采用视觉Transformer（Vision Transformer）作为主干网络，因其自注意力机制天然具备建模区域间成对亲和关系的能力，从而可直接对增强图像对的注意力矩阵之间的距离进行正则化，实现高效且有效的约束。此外，我们提出一种新颖的类别级定位方法，该方法利用类别标记（class token）的梯度信息来增强定位精度。所提方法可无缝集成至现有的基于Transformer的WSSS框架中，无需修改网络结构。我们在PASCAL VOC和MS COCO数据集上进行了实验验证。结果表明，我们的方法显著提升了类别定位质量，在PASCAL VOC训练集上达到67.3%的mIoU（平均交并比），并带来了更优的弱监督语义分割性能。

源 PDF