
摘要
本文致力于设计一种高效的方法,以实现快速且精确的场景解析。提升性能的常用策略是获取具有强语义表征能力的高分辨率特征图。目前广泛采用的两种方法——空洞卷积(atrous convolutions)和特征金字塔融合(feature pyramid fusion),分别存在计算开销大或效果有限的问题。受视频相邻帧间运动对齐中光流(Optical Flow)思想的启发,我们提出了一种流对齐模块(Flow Alignment Module, FAM),用于学习相邻层级特征图之间的语义流(Semantic Flow),从而高效、准确地将高层语义特征广播至高分辨率特征图中。此外,将该模块集成至通用的特征金字塔结构后,即使在轻量级主干网络(如ResNet-18)上,其性能也优于其他实时场景解析方法。我们在多个具有挑战性的数据集上进行了大量实验,包括Cityscapes、PASCAL Context、ADE20K和CamVid。特别地,我们的网络是首个在Cityscapes数据集上实现80.4% mIoU(平均交并比)的同时保持26 FPS帧率的方法。代码已开源,地址为:\url{https://github.com/lxtGH/SFSegNets}。
代码仓库
donnyyou/torchcv
官方
pytorch
PaddlePaddle/PaddleSeg
paddle
lxtGH/SFSegNets
官方
pytorch
MaybeShewill-CV/sfnet-tensorflow
tf
GitHub 中提及
Shualite/SFNet.pytorch
pytorch
GitHub 中提及
sithu31296/semantic-segmentation
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| real-time-semantic-segmentation-on-cityscapes | SFNet-R18 | Frame (fps): 25.7(1080Ti) Time (ms): 39.2 mIoU: 80.4% |
| semantic-segmentation-on-bdd100k-val | SFNet(ResNet-18) | mIoU: 60.6(132.5FPS 4090) |
| semantic-segmentation-on-bdd100k-val | SFNet(DF1) | mIoU: 55.4(70.3fps) |
| semantic-segmentation-on-bdd100k-val | SFNet(DF2) | mIoU: 60.2(208FPS 4090) |