3 个月前

S²-FPN:面向实时语义分割的尺度感知条带注意力引导特征金字塔网络

S²-FPN:面向实时语义分割的尺度感知条带注意力引导特征金字塔网络

摘要

现代高性能语义分割方法通常采用复杂的主干网络与空洞卷积来提取具有上下文和语义信息的相关特征。尽管融合多尺度上下文与语义信息对于提升分割性能至关重要,但此类方法往往带来较大的内存开销和高昂的计算成本,难以满足实时应用的需求。为此,本文提出一种新型模型,旨在实现精度与推理速度之间的良好权衡,适用于实时道路场景语义分割任务。具体而言,我们设计了一种轻量级网络结构,名为尺度感知条带注意力引导特征金字塔网络(Scale-aware Strip Attention Guided Feature Pyramid Network, S²-FPN)。该网络由三个核心模块构成:注意力金字塔融合模块(Attention Pyramid Fusion, APF)、尺度感知条带注意力模块(Scale-aware Strip Attention Module, SSAM)以及全局特征上采样模块(Global Feature Upsample, GFU)。APF模块引入注意力机制,用于学习具有判别性的多尺度特征,并有效缩小不同层级特征之间的语义差距。该模块通过尺度感知注意力机制,结合垂直条带化操作编码全局上下文信息,建模长距离依赖关系,从而增强具有相似语义标签像素之间的关联性。此外,APF还引入通道重加权块(Channel-wise Reweighting Block, CRB),以突出关键通道特征,提升特征表达能力。最后,S²-FPN的解码器部分采用GFU模块,用于融合来自APF模块与编码器的特征信息,实现高效且精准的特征重构。在两个具有挑战性的语义分割基准数据集上进行了大量实验验证,结果表明,所提方法在不同模型配置下均实现了优异的精度与速度权衡。在Cityscapes数据集上,所提模型分别达到了76.2% mIoU / 87.3 FPS、77.4% mIoU / 67 FPS 和 77.8% mIoU / 30.5 FPS 的性能表现;在CamVid数据集上,分别取得了69.6% mIoU、71.0% mIoU 和 74.2% mIoU 的分割精度。实验结果充分验证了该方法在保持高精度的同时具备良好的实时性。本工作的代码将公开发布于:https://github.com/mohamedac29/S2-FPN。

代码仓库

mohamedac29/s2-fpn
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
S²-FPN:面向实时语义分割的尺度感知条带注意力引导特征金字塔网络 | 论文 | HyperAI超神经