
摘要
基于点击的交互式分割近期研究通过采用多种推理时优化策略,取得了当前最先进的性能。然而,与前向传播方法相比,这些方法在计算成本上显著更高,因为它们在推理过程中需要进行反向传播,难以部署于通常仅支持前向传播的移动端框架。本文对交互式分割的多种设计选择进行了全面评估,发现无需任何额外优化策略即可获得新的最先进结果。因此,我们提出了一种简洁的前向传播模型,用于基于点击的交互式分割,该模型利用前序步骤生成的分割掩码。该方法不仅能够完整分割新对象,还可从外部提供的掩码出发进行修正。在分析不同数据集上训练模型的性能时,我们发现训练数据集的选择对交互式分割质量具有显著影响。研究发现,在包含COCO与LVIS的组合数据集上,结合多样化且高质量标注的模型,其性能超越了所有现有方法。代码与训练好的模型已公开,详见:https://github.com/saic-vul/ritm_interactive_segmentation。
代码仓库
PaddlePaddle/PaddleSeg
paddle
supervisely-ecosystem/ritm_interactive_segmentation
pytorch
GitHub 中提及
supervisely-ecosystem/ritm-interactive-segmentation
pytorch
GitHub 中提及
mazurowski-lab/segment-anything-medical
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| interactive-segmentation-on-berkeley | RITM (HRNet18, SBD) | NoC@90: 3.22 |
| interactive-segmentation-on-berkeley | RITM (HRNet18, C+L) | NoC@90: 2.26 |
| interactive-segmentation-on-davis | RITM (HRNet18, SBD) | NoC@85: 4.36 NoC@90: 5.74 |
| interactive-segmentation-on-davis | RITM (HRNet-32, C+L) | NoC@85: 4.11 NoC@90: 5.34 |
| interactive-segmentation-on-grabcut | RITM (HRNet18, C+L) | NoC@85: 1.42 NoC@90: 1.54 |
| interactive-segmentation-on-grabcut | RITM (HRNet18, SBD) | NoC@85: 1.76 NoC@90: 2.04 |
| interactive-segmentation-on-sbd | RITM (HRNet18, SBD) | NoC@85: 3.39 NoC@90: 5.43 |