
摘要
深度卷积神经网络(DCNNs)在高级视觉任务中,如图像分类和目标检测方面,最近展示了最先进的性能。本研究结合了来自DCNNs和概率图模型的方法,以解决像素级分类任务(也称为“语义图像分割”)。我们发现,DCNNs在最终层的响应对于精确的目标分割来说定位不够准确。这是由于使DCNNs适用于高级任务的高度不变性特性所致。为了克服深度网络的这种不良定位属性,我们将最终DCNN层的响应与全连接条件随机场(CRF)相结合。定性上,“DeepLab”系统能够以超越先前方法的精度定位分割边界。定量上,我们的方法在PASCAL VOC-2012语义图像分割任务中达到了新的最先进水平,在测试集中达到了71.6%的交并比(IOU)精度。我们展示了如何高效地获得这些结果:通过仔细调整网络用途以及小波社区中的“空洞”算法的新应用,可以在现代GPU上实现每秒8帧的密集神经网络响应计算。
代码仓库
nightrome/cocostuff10k
GitHub 中提及
Jasonlee1995/DeepLab_v1
pytorch
GitHub 中提及
Daeijavad/Deeplab-CRF
tf
GitHub 中提及
wangleihitcs/DeepLab-V1-PyTorch
pytorch
GitHub 中提及
arahusky/Tensorflow-Segmentation
tf
GitHub 中提及
DeepMotionAIResearch/DenseASPP
pytorch
GitHub 中提及
tensorflow/models
tf
GitHub 中提及
open-mmlab/mmsegmentation
pytorch
TheLegendAli/DeepLab-Context
GitHub 中提及
pathak22/ccnn
GitHub 中提及
NASA-NeMO-Net/NeMO-Net
tf
GitHub 中提及
BardOfCodes/pytorch_deeplab_large_fov
pytorch
GitHub 中提及
tensorflow/models/tree/master/research/deeplab
tf
GitHub 中提及
open-cv/deeplab-v1
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| real-time-semantic-segmentation-on-camvid | DeepLab | Frame (fps): 4.9 Time (ms): 203 mIoU: 61.6% |
| real-time-semantic-segmentation-on-cityscapes | DeepLab | Frame (fps): 0.25 Time (ms): 4000 mIoU: 63.1% |
| scene-segmentation-on-sun-rgbd | DeepLab-LargeFOV | Mean IoU: 32.08 |
| semantic-segmentation-on-camvid | DeepLab-MSc-CRF-LargeFOV | Mean IoU: 61.6% |
| semantic-segmentation-on-cityscapes | DeepLab | Mean IoU (class): 63.1% |
| semantic-segmentation-on-pascal-voc-2012 | DeepLab-MSc-CRF-LargeFOV (VGG-16) | Mean IoU: 71.6% |