8 个月前

计算机视觉

Bowen Zhang Liyan Liu Minh Hieu Phan Zhi Tian Chunhua Shen Yifan Liu

摘要

本文研究了纯视觉变换器（ViTs）在编码器-解码器框架下进行语义分割的能力，并介绍了SegViTv2。在本研究中，我们引入了一种新颖的注意力到掩模（Attention-to-Mask, ATM）模块，用于设计适用于纯ViT的轻量级解码器。所提出的ATM模块将全局注意力图转换为语义掩模，以获得高质量的分割结果。我们的解码器在使用各种ViT骨干网络时，性能优于流行的UPerNet解码器，而计算成本仅为其约5%。对于编码器部分，我们解决了基于ViT的编码器计算成本相对较高的问题，并提出了一种Shrunk++结构，该结构集成了边缘感知查询下采样（Edge-Aware Query-based Down-sampling, EQD）和查询上采样（Query-based Upsampling, QU）模块。Shrunk++结构将编码器的计算成本降低了多达50%，同时保持了竞争力的性能。此外，我们提出了对SegViT进行连续语义分割适应的方法，展示了几乎零遗忘先前学习的知识的能力。实验表明，我们提出的SegViTv2在包括ADE20k、COCO-Stuff-10k和PASCAL-Context数据集在内的三个流行基准上超越了近期的分割方法。代码可通过以下链接获取：https://github.com/zbwxp/SegVit。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Bowen Zhang Liyan Liu Minh Hieu Phan Zhi Tian Chunhua Shen Yifan Liu

摘要

本文研究了纯视觉变换器（ViTs）在编码器-解码器框架下进行语义分割的能力，并介绍了SegViTv2。在本研究中，我们引入了一种新颖的注意力到掩模（Attention-to-Mask, ATM）模块，用于设计适用于纯ViT的轻量级解码器。所提出的ATM模块将全局注意力图转换为语义掩模，以获得高质量的分割结果。我们的解码器在使用各种ViT骨干网络时，性能优于流行的UPerNet解码器，而计算成本仅为其约5%。对于编码器部分，我们解决了基于ViT的编码器计算成本相对较高的问题，并提出了一种Shrunk++结构，该结构集成了边缘感知查询下采样（Edge-Aware Query-based Down-sampling, EQD）和查询上采样（Query-based Upsampling, QU）模块。Shrunk++结构将编码器的计算成本降低了多达50%，同时保持了竞争力的性能。此外，我们提出了对SegViT进行连续语义分割适应的方法，展示了几乎零遗忘先前学习的知识的能力。实验表明，我们提出的SegViTv2在包括ADE20k、COCO-Stuff-10k和PASCAL-Context数据集在内的三个流行基准上超越了近期的分割方法。代码可通过以下链接获取：https://github.com/zbwxp/SegVit。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供