3 个月前

语义流:快速且准确的场景解析

语义流:快速且准确的场景解析

摘要

本文致力于设计一种高效的方法,以实现快速且精确的场景解析。提升性能的常用策略是获取具有强语义表征能力的高分辨率特征图。目前广泛采用的两种方法——空洞卷积(atrous convolutions)和特征金字塔融合(feature pyramid fusion),分别存在计算开销大或效果有限的问题。受视频相邻帧间运动对齐中光流(Optical Flow)思想的启发,我们提出了一种流对齐模块(Flow Alignment Module, FAM),用于学习相邻层级特征图之间的语义流(Semantic Flow),从而高效、准确地将高层语义特征广播至高分辨率特征图中。此外,将该模块集成至通用的特征金字塔结构后,即使在轻量级主干网络(如ResNet-18)上,其性能也优于其他实时场景解析方法。我们在多个具有挑战性的数据集上进行了大量实验,包括Cityscapes、PASCAL Context、ADE20K和CamVid。特别地,我们的网络是首个在Cityscapes数据集上实现80.4% mIoU(平均交并比)的同时保持26 FPS帧率的方法。代码已开源,地址为:\url{https://github.com/lxtGH/SFSegNets}。

代码仓库

donnyyou/torchcv
官方
pytorch
lxtGH/SFSegNets
官方
pytorch
Shualite/SFNet.pytorch
pytorch
GitHub 中提及
sithu31296/semantic-segmentation
pytorch
GitHub 中提及

基准测试

基准方法指标
real-time-semantic-segmentation-on-cityscapesSFNet-R18
Frame (fps): 25.7(1080Ti)
Time (ms): 39.2
mIoU: 80.4%
semantic-segmentation-on-bdd100k-valSFNet(ResNet-18)
mIoU: 60.6(132.5FPS 4090)
semantic-segmentation-on-bdd100k-valSFNet(DF1)
mIoU: 55.4(70.3fps)
semantic-segmentation-on-bdd100k-valSFNet(DF2)
mIoU: 60.2(208FPS 4090)

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语义流:快速且准确的场景解析 | 论文 | HyperAI超神经