4 个月前

深度双分辨率网络用于道路场景的实时准确语义分割

深度双分辨率网络用于道路场景的实时准确语义分割

摘要

语义分割是自动驾驶车辆理解周围场景的关键技术。当前模型的出色性能通常以沉重的计算负担和较长的推理时间作为代价,这对于自动驾驶来说是无法接受的。近期的方法通过使用轻量级架构(编码器-解码器或双路径)或在低分辨率图像上进行推理,实现了非常快速的场景解析,甚至可以在单个1080Ti GPU上达到每秒超过100帧的速度。然而,这些实时方法与基于膨胀骨干网络的模型之间仍然存在显著的性能差距。为了解决这一问题,我们提出了一种专门设计用于实时语义分割的高效骨干网络系列。所提出的深度双分辨率网络(Deep Dual-Resolution Networks, DDRNets)由两个深层分支组成,这两个分支之间进行了多次双边融合。此外,我们设计了一种新的上下文信息提取模块——深度聚合金字塔池化模块(Deep Aggregation Pyramid Pooling Module, DAPPM),以扩大有效的感受野并基于低分辨率特征图融合多尺度上下文信息。我们的方法在Cityscapes和CamVid数据集上实现了准确性和速度之间的最新最佳平衡。特别是,在单个2080Ti GPU上,DDRNet-23-slim在Cityscapes测试集上达到了77.4%的mIoU值和102 FPS的速度,在CamVid测试集上达到了74.7%的mIoU值和230 FPS的速度。结合广泛使用的测试增强技术,我们的方法优于大多数最先进的模型,并且所需的计算量要少得多。代码和训练好的模型已在线提供。

基准测试

基准方法指标
all-day-semantic-segmentation-on-all-dayDDR-Net
mIoU: 68.6
real-time-semantic-segmentation-on-camvidDDRNet-23-slim
Frame (fps): 230(2080Ti)
Time (ms): 4.3
mIoU: 74.7
real-time-semantic-segmentation-on-camvidDDRNet-23(Cityscapes-Pretrained)
Frame (fps): 94(2080Ti)
Time (ms): 10.6
mIoU: 80.6
real-time-semantic-segmentation-on-cityscapesDDRNet-23-slim
Frame (fps): 101.6(2080Ti)
Time (ms): 9.8
mIoU: 77.4%
real-time-semantic-segmentation-on-cityscapes-1DDRNet23-slim
Frame (fps): 101.6
mIoU: 77.4
real-time-semantic-segmentation-on-cityscapes-1DDRNet23
Frame (fps): 37.1
mIoU: 79.4
semantic-segmentation-on-camvidDDRNet23
Mean IoU: 80.6%
semantic-segmentation-on-cityscapesDDRNet-39 1.5x
Mean IoU (class): 82.4%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
深度双分辨率网络用于道路场景的实时准确语义分割 | 论文 | HyperAI超神经