3 个月前

基于4D卷积Swin Transformer的代价聚合用于少样本分割

基于4D卷积Swin Transformer的代价聚合用于少样本分割

摘要

本文提出了一种新颖的代价聚合网络——基于Transformer的体积分组网络(Volumetric Aggregation with Transformers, VAT),用于少样本分割任务。Transformer通过在全局感受野上的自注意力机制,能够有效提升相关性图的聚合效果。然而,将相关性图进行分块(tokenization)以适配Transformer处理时,可能带来负面影响:由于分块边界处的不连续性,导致靠近分块边缘的局部上下文信息丢失,同时削弱了归纳偏置(inductive bias)。为解决这一问题,本文提出一种四维卷积型Swin Transformer(4D Convolutional Swin Transformer),其在高维Swin Transformer之前引入一系列小卷积核卷积操作,为所有像素注入局部上下文信息,并引入卷积神经网络的归纳偏置。此外,通过在金字塔结构中应用Transformer进行多层级聚合,实现粗粒度到细粒度的层次化引导,进一步提升聚合性能。在后续解码器中,利用查询图像的外观嵌入(appearance embedding)对Transformer输出中的噪声进行有效过滤。实验结果表明,该模型在所有标准少样本分割基准测试中均达到了新的最先进水平。同时,研究还证明,VAT在语义对应(semantic correspondence)任务中也取得了当前最优性能,凸显了代价聚合在该任务中的核心作用。

代码仓库

基准测试

基准方法指标
few-shot-semantic-segmentation-on-coco-20i-1VAT (ResNet-101)
FB-IoU: 68.8
Mean IoU: 41.3
few-shot-semantic-segmentation-on-coco-20i-5VAT (ResNet-101)
FB-IoU: 72.4
Mean IoU: 47.9
few-shot-semantic-segmentation-on-fss-1000-1VAT (ResNet-50)
FB-IoU: 93.8
Mean IoU: 90.1
few-shot-semantic-segmentation-on-fss-1000-1VAT (ResNet-101)
FB-IoU: 94
Mean IoU: 90.3
few-shot-semantic-segmentation-on-fss-1000-5VAT (ResNet-50)
FB-IoU: 94.2
Mean IoU: 90.7
few-shot-semantic-segmentation-on-fss-1000-5VAT (ResNet-101)
FB-IoU: 94.4
Mean IoU: 90.8
few-shot-semantic-segmentation-on-pascal-5i-1VAT (ResNet-101)
FB-IoU: 79.6
Mean IoU: 67.9
few-shot-semantic-segmentation-on-pascal-5i-1VAT (ResNet-50)
FB-IoU: 77.8
Mean IoU: 65.5
few-shot-semantic-segmentation-on-pascal-5i-5VAT (ResNet-101)
FB-IoU: 83.2
Mean IoU: 72
few-shot-semantic-segmentation-on-pascal-5i-5VAT (ResNet-50)
FB-IoU: 80.9
Mean IoU: 70.1
semantic-correspondence-on-pf-pascalVAT (ECCV)
PCK: 92.3
semantic-correspondence-on-pf-willowVAT (ECCV)
PCK: 81.6
semantic-correspondence-on-spair-71kVAT (ECCV)
PCK: 55.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于4D卷积Swin Transformer的代价聚合用于少样本分割 | 论文 | HyperAI超神经