6 个月前

摘要

我们提出SegFormer，一种简单、高效且强大的语义分割框架，该框架将Transformer与轻量级多层感知机（MLP）解码器相结合。SegFormer具有两个显著优势：1）SegFormer采用一种新型分层结构的Transformer编码器，能够输出多尺度特征表示。该设计无需位置编码（positional encoding），从而避免了在测试分辨率与训练分辨率不一致时，因位置编码插值导致的性能下降问题；2）SegFormer摒弃了复杂的解码器结构。所提出的MLP解码器能够融合来自不同层级的特征信息，同时整合局部注意力与全局注意力机制，从而生成具有强大表达能力的特征表示。我们证明，这种简洁而轻量的设计是实现Transformer在语义分割任务中高效运行的关键。我们进一步将该方法扩展为一系列模型，从SegFormer-B0到SegFormer-B5，其性能与效率均显著优于以往方法。例如，SegFormer-B4在ADE20K数据集上达到50.3%的mIoU（平均交并比），参数量仅为64M，相比此前最优方法体积缩小5倍，且性能提升2.2个百分点。我们性能最优的模型SegFormer-B5在Cityscapes验证集上取得了84.0%的mIoU，并在Cityscapes-C数据集上展现出优异的零样本鲁棒性。代码将发布于：github.com/NVlabs/SegFormer。

源 PDF