6 个月前

摘要

我们提出一种新颖的代价聚合网络，命名为基于Transformer的体积分量聚合（Volumetric Aggregation with Transformers, VAT），用于解决少样本分割任务。该方法结合卷积与Transformer结构，高效处理查询图像与支持图像之间的高维相关性图。具体而言，我们设计了一种编码器，包含两个核心模块：体积分量嵌入模块（volume embedding module）和体积分量Transformer模块（volumetric transformer module）。前者不仅将相关性图映射至更易处理的低维空间，还引入了卷积神经网络的归纳偏置；后者则用于实现高效的代价聚合。该编码器采用金字塔结构，使粗粒度层级的聚合结果能够指导细粒度层级的聚合过程，同时促进学习互补的匹配得分。随后，我们将编码器输出与投影后的特征图一同输入至亲和力感知解码器（affinity-aware decoder），以引导分割过程。通过整合上述组件，我们在多个标准少样本分割基准上进行了实验，结果表明所提方法显著优于现有方法，并在所有标准评测中达到新的最先进性能（state-of-the-art）。此外，我们还发现，尽管本方法并非专为语义对应任务设计，但在标准语义对应任务的基准上同样取得了当前最优的性能表现。为验证网络架构设计的合理性，我们进行了详尽的消融实验。相关训练权重与代码已公开，可访问：https://seokju-cho.github.io/VAT/。

源 PDF