8 个月前

摘要

本文着重探讨了加快并提高语义分割精度的有效方法。通常的做法是通过获得具有强大语义表示的高分辨率特征图来提升性能。目前广泛使用的两种策略是空洞卷积（Atrous Convolution）和特征金字塔融合（Feature Pyramid Fusion），但它们要么计算量大，要么效果不佳。受光流（Optical Flow）在相邻视频帧之间进行运动对齐的启发，我们提出了一种流对齐模块（Flow Alignment Module, FAM），用于学习相邻层次特征图之间的\textit{语义流}（Semantic Flow），从而高效且有效地将高层次特征广播到高分辨率特征。此外，将我们的FAM集成到标准的特征金字塔结构中，在其他实时方法上表现出色，即使是在轻量级骨干网络（如ResNet-18和DFNet）上也是如此。为了进一步加速推理过程，我们还提出了一种新颖的门控双流对齐模块（Gated Dual Flow Alignment Module），直接对齐高分辨率特征图和低分辨率特征图，我们将改进后的网络称为SFNet-Lite。我们在多个具有挑战性的数据集上进行了广泛的实验，结果表明SFNet和SFNet-Lite的有效性。特别是，在使用Cityscapes测试集时，基于ResNet-18骨干网络的SFNet-Lite系列模型达到了80.1 mIoU，同时以60 FPS的速度运行；而基于STDC骨干网络的模型则在RTX-3090上以120 FPS的速度运行时达到了78.8 mIoU。此外，我们将四个具有挑战性的驾驶数据集统一为一个大型数据集，命名为统一驾驶分割（Unified Driving Segmentation, UDS）数据集。该数据集包含多样化的领域和风格信息。我们在UDS上对几项代表性工作进行了基准测试。无论是SFNet还是SFNet-Lite，在UDS上均实现了最佳的速度与精度平衡，成为这一极具挑战性场景下的强大基线模型。代码和模型已公开发布在https://github.com/lxtGH/SFSegNets。

源 PDF