3 个月前

K-Net:迈向统一的图像分割

K-Net:迈向统一的图像分割

摘要

尽管语义分割、实例分割与全景分割在本质上具有密切关联,但以往研究通常采用各自独立且专门化的框架来处理这些任务。本文提出了一种统一、简洁且高效的新框架——K-Net,用于同时解决这三类本质上相似的任务。K-Net通过一组可学习的卷积核实现对实例和语义类别的一致性分割,其中每个卷积核负责生成一个潜在实例或一类“stuff”类别的掩码。为解决不同实例之间难以区分的问题,本文提出一种卷积核更新策略,使每个卷积核具备动态性,并根据输入图像中其所属的有意义组别进行条件化调整。K-Net可采用二分匹配(bipartite matching)实现端到端训练,其训练与推理过程天然无需非极大值抑制(NMS)且不依赖边界框(box-free)。在不依赖复杂技巧的前提下,K-Net在MS COCO测试开发集上的全景分割任务中取得了55.2%的Panoptic Quality(PQ)性能,超越此前所有已发表的单模型最优结果;在ADE20K验证集上的语义分割任务中达到54.3%的mIoU,同样领先于现有方法。此外,其在MS COCO上的实例分割性能与Cascade Mask R-CNN相当,同时推理速度提升50%至90%。相关代码与模型已开源,地址为:https://github.com/ZwwWayne/K-Net/。

代码仓库

zwwwayne/k-net
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
instance-segmentation-on-cocoK-Net (ResNet-101)
AP50: 62.8
APL: 58.8
APM: 42.7
APS: 18.7
mask AP: 40.1%
instance-segmentation-on-cocoK-Net-N256 (ResNet-101)
AP50: 63.3
APL: 59
APM: 43.3
APS: 18.8
mask AP: 40.6%
panoptic-segmentation-on-coco-test-devK-Net (Swin-L)
PQ: 55.2
PQst: 46.2
PQth: 61.2
panoptic-segmentation-on-coco-test-devK-Net (R101-FPN-DCN)
PQ: 48.3
PQst: 39.7
PQth: 54
semantic-segmentation-on-ade20kK-Net
Validation mIoU: 54.3
semantic-segmentation-on-ade20k-valK-Net
mIoU: 54.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
K-Net:迈向统一的图像分割 | 论文 | HyperAI超神经