
摘要
尽管语义分割、实例分割与全景分割在本质上具有密切关联,但以往研究通常采用各自独立且专门化的框架来处理这些任务。本文提出了一种统一、简洁且高效的新框架——K-Net,用于同时解决这三类本质上相似的任务。K-Net通过一组可学习的卷积核实现对实例和语义类别的一致性分割,其中每个卷积核负责生成一个潜在实例或一类“stuff”类别的掩码。为解决不同实例之间难以区分的问题,本文提出一种卷积核更新策略,使每个卷积核具备动态性,并根据输入图像中其所属的有意义组别进行条件化调整。K-Net可采用二分匹配(bipartite matching)实现端到端训练,其训练与推理过程天然无需非极大值抑制(NMS)且不依赖边界框(box-free)。在不依赖复杂技巧的前提下,K-Net在MS COCO测试开发集上的全景分割任务中取得了55.2%的Panoptic Quality(PQ)性能,超越此前所有已发表的单模型最优结果;在ADE20K验证集上的语义分割任务中达到54.3%的mIoU,同样领先于现有方法。此外,其在MS COCO上的实例分割性能与Cascade Mask R-CNN相当,同时推理速度提升50%至90%。相关代码与模型已开源,地址为:https://github.com/ZwwWayne/K-Net/。
代码仓库
zwwwayne/k-net
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-coco | K-Net (ResNet-101) | AP50: 62.8 APL: 58.8 APM: 42.7 APS: 18.7 mask AP: 40.1% |
| instance-segmentation-on-coco | K-Net-N256 (ResNet-101) | AP50: 63.3 APL: 59 APM: 43.3 APS: 18.8 mask AP: 40.6% |
| panoptic-segmentation-on-coco-test-dev | K-Net (Swin-L) | PQ: 55.2 PQst: 46.2 PQth: 61.2 |
| panoptic-segmentation-on-coco-test-dev | K-Net (R101-FPN-DCN) | PQ: 48.3 PQst: 39.7 PQth: 54 |
| semantic-segmentation-on-ade20k | K-Net | Validation mIoU: 54.3 |
| semantic-segmentation-on-ade20k-val | K-Net | mIoU: 54.3 |