6 个月前

摘要

尽管语义分割、实例分割与全景分割在本质上具有密切关联，但以往研究通常采用各自独立且专门化的框架来处理这些任务。本文提出了一种统一、简洁且高效的新框架——K-Net，用于同时解决这三类本质上相似的任务。K-Net通过一组可学习的卷积核实现对实例和语义类别的一致性分割，其中每个卷积核负责生成一个潜在实例或一类“stuff”类别的掩码。为解决不同实例之间难以区分的问题，本文提出一种卷积核更新策略，使每个卷积核具备动态性，并根据输入图像中其所属的有意义组别进行条件化调整。K-Net可采用二分匹配（bipartite matching）实现端到端训练，其训练与推理过程天然无需非极大值抑制（NMS）且不依赖边界框（box-free）。在不依赖复杂技巧的前提下，K-Net在MS COCO测试开发集上的全景分割任务中取得了55.2%的Panoptic Quality（PQ）性能，超越此前所有已发表的单模型最优结果；在ADE20K验证集上的语义分割任务中达到54.3%的mIoU，同样领先于现有方法。此外，其在MS COCO上的实例分割性能与Cascade Mask R-CNN相当，同时推理速度提升50%至90%。相关代码与模型已开源，地址为：https://github.com/ZwwWayne/K-Net/。

源 PDF