
摘要
语义分割需要大量的像素级注释来学习准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过合成新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,同时预测未来的标签。此外,我们还提出了一种联合传播策略,以减轻合成样本中的错位问题。我们证明,在包含合成样本的数据集上训练分割模型可以显著提高其准确性。此外,我们引入了一种新颖的边界标签松弛技术,该技术使训练对注释噪声和沿物体边界的传播伪影具有鲁棒性。我们的方法在Cityscapes数据集上达到了83.5%的mIoU(平均交并比),在CamVid数据集上达到了82.9%的mIoU。我们的单一模型在KITTI语义分割测试集上实现了72.8%的mIoU,超过了2018年ROB挑战赛的获胜作品。我们的代码和视频可以在https://nv-adlr.github.io/publication/2018-Segmentation 获取。
代码仓库
NVIDIA/semantic-segmentation
pytorch
GitHub 中提及
ganlumomo/semantic-segmentation
pytorch
GitHub 中提及
YeLyuUT/SSeg
pytorch
GitHub 中提及
ganlumomo/mtl-segmentation
pytorch
GitHub 中提及
tobiasriedlinger/uncertainty-gradients-seg
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-camvid | DeepLabV3Plus + SDCNetAug | Mean IoU: 81.7% |
| semantic-segmentation-on-kitti-semantic | DeepLabV3Plus + SDCNetAug | Category IoU: 88.99 Category iIoU: 75.26 Mean IoU (class): 72.83 class iIoU: 48.68 |