HyperAIHyperAI

Command Palette

Search for a command to run...

基于4D卷积Swin Transformer的代价聚合用于少样本分割

Sunghwan Hong Seokju Cho Jisu Nam Stephen Lin Seungryong Kim

摘要

本文提出了一种新颖的代价聚合网络——基于Transformer的体积分组网络(Volumetric Aggregation with Transformers, VAT),用于少样本分割任务。Transformer通过在全局感受野上的自注意力机制,能够有效提升相关性图的聚合效果。然而,将相关性图进行分块(tokenization)以适配Transformer处理时,可能带来负面影响:由于分块边界处的不连续性,导致靠近分块边缘的局部上下文信息丢失,同时削弱了归纳偏置(inductive bias)。为解决这一问题,本文提出一种四维卷积型Swin Transformer(4D Convolutional Swin Transformer),其在高维Swin Transformer之前引入一系列小卷积核卷积操作,为所有像素注入局部上下文信息,并引入卷积神经网络的归纳偏置。此外,通过在金字塔结构中应用Transformer进行多层级聚合,实现粗粒度到细粒度的层次化引导,进一步提升聚合性能。在后续解码器中,利用查询图像的外观嵌入(appearance embedding)对Transformer输出中的噪声进行有效过滤。实验结果表明,该模型在所有标准少样本分割基准测试中均达到了新的最先进水平。同时,研究还证明,VAT在语义对应(semantic correspondence)任务中也取得了当前最优性能,凸显了代价聚合在该任务中的核心作用。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供