8 个月前

摘要

语义分割是自动驾驶车辆理解周围场景的关键技术。当前模型的出色性能通常以沉重的计算负担和较长的推理时间作为代价，这对于自动驾驶来说是无法接受的。近期的方法通过使用轻量级架构（编码器-解码器或双路径）或在低分辨率图像上进行推理，实现了非常快速的场景解析，甚至可以在单个1080Ti GPU上达到每秒超过100帧的速度。然而，这些实时方法与基于膨胀骨干网络的模型之间仍然存在显著的性能差距。为了解决这一问题，我们提出了一种专门设计用于实时语义分割的高效骨干网络系列。所提出的深度双分辨率网络（Deep Dual-Resolution Networks, DDRNets）由两个深层分支组成，这两个分支之间进行了多次双边融合。此外，我们设计了一种新的上下文信息提取模块——深度聚合金字塔池化模块（Deep Aggregation Pyramid Pooling Module, DAPPM），以扩大有效的感受野并基于低分辨率特征图融合多尺度上下文信息。我们的方法在Cityscapes和CamVid数据集上实现了准确性和速度之间的最新最佳平衡。特别是，在单个2080Ti GPU上，DDRNet-23-slim在Cityscapes测试集上达到了77.4%的mIoU值和102 FPS的速度，在CamVid测试集上达到了74.7%的mIoU值和230 FPS的速度。结合广泛使用的测试增强技术，我们的方法优于大多数最先进的模型，并且所需的计算量要少得多。代码和训练好的模型已在线提供。

源 PDF