6 个月前

摘要

本文提出了一种新颖的代价聚合网络——基于Transformer的体积分组网络（Volumetric Aggregation with Transformers, VAT），用于少样本分割任务。Transformer通过在全局感受野上的自注意力机制，能够有效提升相关性图的聚合效果。然而，将相关性图进行分块（tokenization）以适配Transformer处理时，可能带来负面影响：由于分块边界处的不连续性，导致靠近分块边缘的局部上下文信息丢失，同时削弱了归纳偏置（inductive bias）。为解决这一问题，本文提出一种四维卷积型Swin Transformer（4D Convolutional Swin Transformer），其在高维Swin Transformer之前引入一系列小卷积核卷积操作，为所有像素注入局部上下文信息，并引入卷积神经网络的归纳偏置。此外，通过在金字塔结构中应用Transformer进行多层级聚合，实现粗粒度到细粒度的层次化引导，进一步提升聚合性能。在后续解码器中，利用查询图像的外观嵌入（appearance embedding）对Transformer输出中的噪声进行有效过滤。实验结果表明，该模型在所有标准少样本分割基准测试中均达到了新的最先进水平。同时，研究还证明，VAT在语义对应（semantic correspondence）任务中也取得了当前最优性能，凸显了代价聚合在该任务中的核心作用。

源 PDF