
摘要
我们提出SegFormer,一种简单、高效且强大的语义分割框架,该框架将Transformer与轻量级多层感知机(MLP)解码器相结合。SegFormer具有两个显著优势:1)SegFormer采用一种新型分层结构的Transformer编码器,能够输出多尺度特征表示。该设计无需位置编码(positional encoding),从而避免了在测试分辨率与训练分辨率不一致时,因位置编码插值导致的性能下降问题;2)SegFormer摒弃了复杂的解码器结构。所提出的MLP解码器能够融合来自不同层级的特征信息,同时整合局部注意力与全局注意力机制,从而生成具有强大表达能力的特征表示。我们证明,这种简洁而轻量的设计是实现Transformer在语义分割任务中高效运行的关键。我们进一步将该方法扩展为一系列模型,从SegFormer-B0到SegFormer-B5,其性能与效率均显著优于以往方法。例如,SegFormer-B4在ADE20K数据集上达到50.3%的mIoU(平均交并比),参数量仅为64M,相比此前最优方法体积缩小5倍,且性能提升2.2个百分点。我们性能最优的模型SegFormer-B5在Cityscapes验证集上取得了84.0%的mIoU,并在Cityscapes-C数据集上展现出优异的零样本鲁棒性。代码将发布于:github.com/NVlabs/SegFormer。
代码仓库
PaddlePaddle/PaddleSeg
paddle
DavidLandup0/deepvision
pytorch
pwc-1/Paper-10/tree/main/segformer
mindspore
lucidrains/segformer-pytorch
pytorch
GitHub 中提及
chenghan111/dnc
pytorch
GitHub 中提及
VikParuchuri/surya
pytorch
GitHub 中提及
macdonaldezra/minesegsat
pytorch
GitHub 中提及
UAws/CV-3315-Is-All-You-Need
pytorch
GitHub 中提及
GhadeerElmkaiel/SegFormer
pytorch
GitHub 中提及
IMvision12/SegFormer-tf
tf
GitHub 中提及
NVlabs/SegFormer
官方
pytorch
GitHub 中提及
IMvision12/keras-vision-models
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
KieDani/SegformerPlusPlus
pytorch
dzhaoxd/seco
pytorch
GitHub 中提及
DarshanDeshpande/jax-models
jax
GitHub 中提及
alessiomora/unlearning_fl
tf
GitHub 中提及
toqitahamid/gasformer
pytorch
GitHub 中提及
sithu31296/semantic-segmentation
pytorch
GitHub 中提及
JoegameZhou/Segmenter_workers
mindspore
kikacaty/RAP_Benchmark
pytorch
GitHub 中提及