HyperAI超神经

摘要

多尺度表征在语义分割任务中至关重要。近年来，社区涌现出大量基于卷积神经网络（CNN）的语义分割方法，它们通过有效利用多尺度上下文信息取得了显著进展。受视觉Transformer（ViT）在图像分类任务中卓越性能的启发，近期也出现了一些面向语义分割的ViT模型，尽管多数方法取得了令人瞩目的结果，但往往伴随着较高的计算开销。本文成功地将多尺度表征引入语义分割用的ViT架构中，通过引入窗口注意力机制，在不显著增加计算负担的前提下显著提升了模型的性能与效率。为此，我们提出大窗口注意力（Large Window Attention）机制，使局部查询窗口能够以极小的计算代价访问更大范围的上下文窗口。通过调节上下文区域与查询区域之间的比例，该机制能够自适应地捕捉多尺度的上下文信息。此外，我们结合空间金字塔池化（Spatial Pyramid Pooling）框架，设计了一种新颖的解码器结构——大窗口注意力空间金字塔池化（Large Window Attention Spatial Pyramid Pooling, LawinASPP），专为语义分割用ViT优化。最终，我们构建的ViT模型——Lawin Transformer，由一个高效的分层视觉Transformer（Hierarchical Vision Transformer, HVT）作为编码器，以及上述的LawinASPP作为解码器构成。实验结果表明，与现有方法相比，Lawin Transformer在保持高精度的同时显著提升了计算效率。在多个主流语义分割基准数据集上，Lawin Transformer均取得了新的最先进性能：在Cityscapes数据集上达到84.4%的mIoU，在ADE20K数据集上达到56.2%的mIoU，在COCO-Stuff数据集上也表现优异。相关代码已开源，地址为：https://github.com/yan-hao-tian/lawin

摘要

Haotian Yan Chuang Zhang Ming Wu

摘要

用 AI 构建 AI

HyperAI Newsletters

Haotian Yan Chuang Zhang Ming Wu

摘要

用 AI 构建 AI

HyperAI Newsletters

Haotian Yan Chuang Zhang Ming Wu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Lawin Transformer：通过大窗口注意力机制实现多尺度表征以提升语义分割Transformer

Haotian Yan Chuang Zhang Ming Wu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Lawin Transformer：通过大窗口注意力机制实现多尺度表征以提升语义分割Transformer

Haotian Yan Chuang Zhang Ming Wu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Lawin Transformer：通过大窗口注意力机制实现多尺度表征以提升语义分割Transformer

Haotian Yan Chuang Zhang Ming Wu

摘要

用 AI 构建 AI

HyperAI Newsletters