
摘要
基于点击的交互式图像分割旨在用户点击的引导下,从图像中提取目标对象。近期研究通过引入输出反馈机制,在整体性能上取得了显著进展。然而,在大多数最先进的方法中仍存在两个关键问题:1)推理阶段依赖于僵化的启发式规则,且需要额外的精炼模型;2)用户点击次数与模型性能之间难以实现有效平衡。为解决上述挑战,本文提出一种基于点击并由掩码引导的交互式图像分割框架,包含三个创新组件:级联前向精炼(Cascade-Forward Refinement, CFR)、迭代点击损失(Iterative Click Loss, ICL)以及SUEM图像增强方法。CFR构建了一个统一的推理框架,能够以从粗到精的渐进方式生成分割结果;ICL在模型训练过程中同时优化分割精度并减少用户交互次数;SUEM增强方法则是一种系统化策略,用于构建大规模且多样化的交互式图像分割训练数据集。大量实验表明,所提方法在五个公开数据集上均达到了当前最优性能。尤为突出的是,在Berkeley和DAVIS数据集上,相较于先前的最先进方法,本模型分别将达到0.95以上交并比(IoU)所需的点击次数减少了33.2%和15.5%。
代码仓库
TitorX/CFR-ICL-Interactive-Segmentation
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| interactive-segmentation-on-berkeley | ICL CFR-1 (ViT-H, C+L) | NoC@90: 1.46 NoC@95: 2.90 |
| interactive-segmentation-on-davis | ICL CFR-1 (ViT-H, C+L) | NoC@85: 3 NoC@90: 4.24 NoC@95: 7.50 |
| interactive-segmentation-on-grabcut | ICL CFR-1 (ViT-H, SBD) | NoC@90: 1.42 NoC@95: 1.62 |
| interactive-segmentation-on-grabcut | SimpleClick CFR-1 (ViT-H, SBD) | NoC@85: 1.30 NoC@90: 1.32 NoC@95: 1.78 |
| interactive-segmentation-on-pascal-voc | ICL CFR-1 (ViT-H, C+L) | NoC@85: 1.72 NoC@90: 1.94 NoC@95: 2.45 |
| interactive-segmentation-on-sbd | SimpleClick CFR-1 (ViT-H, SBD) | NoC@85: 2.45 NoC@90: 4.08 NoC@95: 9.80 |