3 个月前

PIDNet:受PID控制器启发的实时语义分割网络

PIDNet:受PID控制器启发的实时语义分割网络

摘要

双分支网络架构在实时语义分割任务中已展现出高效性与有效性。然而,直接融合高分辨率细节信息与低频上下文信息存在明显缺陷:细节特征容易被周围上下文信息所淹没,导致“超调”现象,从而限制了现有双分支模型分割精度的进一步提升。本文首次将卷积神经网络(CNN)与比例-积分-微分(PID)控制器建立关联,揭示出双分支网络等效于一个比例-积分(PI)控制器,而此类控制器本身固有地存在类似超调问题。为缓解该问题,本文提出一种新型三分支网络架构——PIDNet,该架构包含三个分支,分别用于解析细节信息、上下文信息与边界信息,并引入边界注意力机制,指导细节分支与上下文分支的融合过程。所提出的PIDNet系列模型在推理速度与精度之间实现了最佳平衡,在Cityscapes与CamVid数据集上,其精度均超越了所有具有相近推理速度的现有模型。具体而言,PIDNet-S在Cityscapes数据集上实现了78.6%的mIOU,推理速度达93.2 FPS;在CamVid数据集上,mIOU达到80.1%,推理速度高达153.7 FPS。

代码仓库

hamidriasat/PIDNet
tf
GitHub 中提及
enot-autodl/lpcv-2023
pytorch
GitHub 中提及
XuJiacong/PIDNet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
real-time-semantic-segmentation-on-camvidPIDNet-S (Cityscapes-Pretrained)
Frame (fps): 153.7(3090)
Time (ms): 6.5
mIoU: 80.1
real-time-semantic-segmentation-on-camvidPIDNet-M (Cityscapes-Pretrained)
Frame (fps): 85.6(3090)
Time (ms): 11.7
mIoU: 82.0
real-time-semantic-segmentation-on-cityscapesPIDNet-L
Frame (fps): 31.1(3090)
Time (ms): 32.2
mIoU: 80.6%
real-time-semantic-segmentation-on-cityscapesPIDNet-M
Frame (fps): 42.2(3090)
Time (ms): 23.7
mIoU: 79.8%
real-time-semantic-segmentation-on-cityscapesPIDNet-S
Frame (fps): 93.2(3090)
Time (ms): 10.7
mIoU: 78.6%
real-time-semantic-segmentation-on-cityscapes-1PIDNet-M
Frame (fps): 42.2(3090)
Time (ms): 23.7
mIoU: 79.9%
real-time-semantic-segmentation-on-cityscapes-1PIDNet-S
Frame (fps): 93.2(3090)
Time (ms): 10.7
mIoU: 78.8%
real-time-semantic-segmentation-on-cityscapes-1PIDNet-L
Frame (fps): 31.1(3090)
Time (ms): 32.2
mIoU: 80.9%
semantic-segmentation-on-camvidPIDNet-Wider
Mean IoU: 82.0%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PIDNet:受PID控制器启发的实时语义分割网络 | 论文 | HyperAI超神经