
摘要
近日,基于Transformer的网络在语义分割任务中展示了令人印象深刻的结果。然而,由于Transformer计算机制耗时较长,纯CNN(卷积神经网络)方法在实时语义分割领域仍占据主导地位。我们提出了一种名为RTFormer的高效双分辨率Transformer模型,该模型在性能和效率之间取得了比CNN模型更好的平衡。为了在类似GPU的设备上实现高效的推理,我们的RTFormer采用了线性复杂度的GPU友好型注意力机制,并放弃了多头机制。此外,我们发现跨分辨率注意力机制能够更有效地通过低分辨率分支传播高层次知识,从而为高分辨率分支收集全局上下文信息。我们在主流基准数据集上进行了大量实验,结果证明了所提出的RTFormer的有效性。它在Cityscapes、CamVid和COCOStuff数据集上达到了最先进的水平,并在ADE20K数据集上展示了有前景的结果。代码可在PaddleSeg仓库获取:https://github.com/PaddlePaddle/PaddleSeg。
代码仓库
PaddlePaddle/PaddleSeg
官方
paddle
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| real-time-semantic-segmentation-on-camvid | RTFormer-Slim | Frame (fps): 190.7(2080Ti) mIoU: 81.4 |
| real-time-semantic-segmentation-on-cityscapes-1 | RTFormer-S | Frame (fps): 89.6 mIoU: 76.3% |
| real-time-semantic-segmentation-on-cityscapes-1 | RTFormer-B | Frame (fps): 50.2 mIoU: 79.3% |
| semantic-segmentation-on-camvid | RTFormer-Base | Mean IoU: 82.5 |