
摘要
空洞卷积被用作在语义分割任务中增加感受野的一种方法。然而,在以往的语义分割工作中,这种方法很少被应用于模型的浅层。我们重新审视了现代卷积神经网络(CNNs)中空洞卷积的设计,并证明了使用大内核来应用空洞卷积可能是一种更强大的范式。为此,我们提出了三条指导原则,以更高效地应用空洞卷积。遵循这些指导原则,我们设计了DSNet,一种双分支CNN架构,该架构不仅在模型的浅层引入了空洞卷积,还通过在ImageNet上预训练几乎整个编码器来实现更好的性能。为了验证我们方法的有效性,我们的模型在ADE20K、Cityscapes和BDD数据集上实现了新的精度与速度之间的最佳权衡。具体而言,DSNet在ADE20K数据集上达到了40.0%的mIOU(平均交并比),推理速度为179.2帧每秒(FPS),而在Cityscapes数据集上则达到了80.4%的mIOU,推理速度为81.9 FPS。源代码和模型可在GitHub上获取:https://github.com/takaniwa/DSNet。
代码仓库
takaniwa/dsnet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| real-time-semantic-segmentation-on-cityscapes-1 | DSNet | Frame (fps): 81.9 mIoU: 80.4% |
| semantic-segmentation-on-bdd100k-val | DSNet-Base | mIoU: 64.6 |
| semantic-segmentation-on-bdd100k-val | DSNet-head64 | mIoU: 62.6(172.2FPS 4090) |
| semantic-segmentation-on-camvid | DSNet-Base | Mean IoU: 83.32 |
| semantic-segmentation-on-cityscapes-val | DSNet(single-scale) | FPS: 81.9 mIoU: 80.4 |
| semantic-segmentation-on-cityscapes-val | DSNet-Base(single-scale) | mIoU: 82.0 |