4 个月前

RTFormer:适用于实时语义分割的高效Transformer设计

RTFormer:适用于实时语义分割的高效Transformer设计

摘要

近日,基于Transformer的网络在语义分割任务中展示了令人印象深刻的结果。然而,由于Transformer计算机制耗时较长,纯CNN(卷积神经网络)方法在实时语义分割领域仍占据主导地位。我们提出了一种名为RTFormer的高效双分辨率Transformer模型,该模型在性能和效率之间取得了比CNN模型更好的平衡。为了在类似GPU的设备上实现高效的推理,我们的RTFormer采用了线性复杂度的GPU友好型注意力机制,并放弃了多头机制。此外,我们发现跨分辨率注意力机制能够更有效地通过低分辨率分支传播高层次知识,从而为高分辨率分支收集全局上下文信息。我们在主流基准数据集上进行了大量实验,结果证明了所提出的RTFormer的有效性。它在Cityscapes、CamVid和COCOStuff数据集上达到了最先进的水平,并在ADE20K数据集上展示了有前景的结果。代码可在PaddleSeg仓库获取:https://github.com/PaddlePaddle/PaddleSeg。

代码仓库

基准测试

基准方法指标
real-time-semantic-segmentation-on-camvidRTFormer-Slim
Frame (fps): 190.7(2080Ti)
mIoU: 81.4
real-time-semantic-segmentation-on-cityscapes-1RTFormer-S
Frame (fps): 89.6
mIoU: 76.3%
real-time-semantic-segmentation-on-cityscapes-1RTFormer-B
Frame (fps): 50.2
mIoU: 79.3%
semantic-segmentation-on-camvidRTFormer-Base
Mean IoU: 82.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RTFormer:适用于实时语义分割的高效Transformer设计 | 论文 | HyperAI超神经