
摘要
我们提出了一种结构化预测架构,该架构利用了卷积神经网络(Convolutional Neural Networks)提取的局部通用特征以及循环神经网络(Recurrent Neural Networks, RNN)捕捉远距离依赖关系的能力。所提出的架构称为 ReSeg,基于最近为图像分类引入的 ReNet 模型。我们对其进行了修改和扩展,以应对更具挑战性的语义分割任务。每个 ReNet 层由四个 RNN 组成,这些 RNN 以水平和垂直方向双向扫描图像,编码图像块或激活,并提供相关全局信息。此外,ReNet 层堆叠在预训练的卷积层之上,从而受益于局部通用特征。上采样层紧随 ReNet 层之后,用于恢复最终预测中的原始图像分辨率。所提出的 ReSeg 架构高效、灵活且适用于多种语义分割任务。我们在多个广泛使用的语义分割数据集上评估了 ReSeg:Weizmann 马匹数据集、Oxford 花朵数据集和 CamVid 数据集;取得了最先进的性能。结果表明,ReSeg 可作为语义分割任务的一种合适架构,并可能在其他结构化预测问题中具有进一步的应用。源代码和模型超参数可在 https://github.com/fvisin/reseg 获取。
代码仓库
MindCode-4/code-13/tree/main/ReSeg
mindspore
fvisin/reseg
官方
GitHub 中提及
MindCode-4/code-8/tree/main/ReSeg
mindspore
SConsul/ReSeg
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-camvid | ReSeg | Global Accuracy: 88.7% Mean IoU: 58.8% |