
摘要
语义类别可以分为物体(具有明确形状的对象,例如汽车、人物)和背景(无定形的背景区域,例如草地、天空)。尽管许多分类和检测研究主要集中在物体类别上,但对背景类别的关注较少。然而,背景类别同样重要,因为它们能够解释图像中的关键方面,包括:(1) 场景类型;(2) 可能存在的物体类别及其位置(通过上下文推理);(3) 场景的物理属性、材料类型和几何特性。为了在上下文中理解背景和物体,我们引入了COCO-Stuff数据集,该数据集为COCO 2017数据集中所有164,000张图像添加了91个背景类别的像素级注释。我们提出了一种基于超像素的高效背景注释协议,该协议利用了原有的物体注释。我们量化了该协议的速度与质量之间的权衡,并探讨了注释时间与边界复杂度之间的关系。此外,我们利用COCO-Stuff数据集分析了以下几点:(a) 背景和物体类别的重要性,从其表面覆盖面积以及在图像标题中被提及的频率来衡量;(b) 背景与物体之间的空间关系,突显出丰富的上下文关系使我们的数据集独具特色;(c) 现代语义分割方法在背景和物体类别上的性能表现,并探讨背景是否比物体更容易进行分割。
代码仓库
woonhahaha/place-classification
pytorch
GitHub 中提及
nightrome/cocostuff10k
GitHub 中提及
johnnylu305/deeplab-imagenet-pytorch
pytorch
GitHub 中提及
waggle-sensor/plugin-water-detector
pytorch
GitHub 中提及
kazuto1011/deeplab-pytorch
pytorch
GitHub 中提及
zllrunning/deeplab-pytorch-crf
pytorch
GitHub 中提及
nightrome/cocostuff
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-coco-stuff | Deeplab v2 | F.W. IU: 47.6 Per-Class Accuracy: 45.1 Pixel Accuracy: 63.6 mIoU: 33.2 |