
摘要
我们介绍了SegNeXt,一种用于语义分割的简单卷积网络架构。近年来,基于变压器的模型由于自注意力机制在编码空间信息方面的高效性而主导了语义分割领域。在本文中,我们展示了卷积注意力是一种比变压器中的自注意力机制更高效且有效的方法来编码上下文信息。通过重新审视成功分割模型所具有的特性,我们发现了几个关键组件,这些组件导致了分割模型性能的提升。这促使我们设计了一种新颖的卷积注意力网络,该网络使用成本较低的卷积操作。无需复杂的附加功能,我们的SegNeXt在流行的基准测试中显著提升了先前最先进方法的性能,包括ADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context和iSAID。特别值得一提的是,SegNeXt在参数量仅为EfficientNet-L2 w/ NAS-FPN的1/10的情况下,在Pascal VOC 2012测试排行榜上实现了90.6%的mIoU(平均交并比)。在ADE20K数据集上,与计算量相同或更少的最先进方法相比,SegNeXt平均实现了约2.0%的mIoU提升。代码可在https://github.com/uyzhang/JSeg (Jittor) 和 https://github.com/Visual-Attention-Network/SegNeXt (Pytorch) 获取。
代码仓库
visual-attention-network/segnext
官方
pytorch
GitHub 中提及
open-mmlab/mmsegmentation
pytorch
Jittor/JSeg
pytorch
open-edge-platform/geti
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| real-time-semantic-segmentation-on-cityscapes-1 | SegNext-T-Seg100 | Frame (fps): 28.1 mIoU: 79.8% |
| semantic-segmentation-on-ddd17 | SegNeXt-B | mIoU: 71.46 |
| semantic-segmentation-on-dsec | SegNeXt-B | mIoU: 71.55 |
| semantic-segmentation-on-isaid | SegNeXt-L | mIoU: 70.3 |
| semantic-segmentation-on-isaid | SegNeXt-S | mIoU: 68.8 |
| semantic-segmentation-on-isaid | SegNeXt-B | mIoU: 69.9 |
| semantic-segmentation-on-isaid | SegNeXt-T | mIoU: 68.3 |