
摘要
我们对一项名为二元图像分割(Dichotomous Image Segmentation, DIS)的新任务进行了系统研究,该任务旨在从自然图像中分割出高精度的对象。为此,我们收集了首个大规模的DIS数据集,称为DIS5K,其中包含5,470张高分辨率(例如2K、4K或更高)的图像,涵盖了各种背景下的伪装、显著或精细对象。DIS的数据标注极为细致。此外,我们引入了一种简单的中间监督基线模型(IS-Net),该模型在特征级和掩模级同时提供指导,用于DIS模型的训练。IS-Net在提出的DIS5K数据集上超越了多种前沿基线模型,成为一种通用的自学习监督网络,可以促进未来在DIS领域的研究。进一步地,我们设计了一种新的评估指标——人工校正努力(Human Correction Efforts, HCE),该指标近似表示纠正误报和漏报所需的鼠标点击操作次数。HCE被用来衡量模型与实际应用之间的差距,因此可以补充现有的评估指标。最后,我们进行了最大规模的基准测试,评估了16个具有代表性的分割模型,提供了关于对象复杂性的更深入讨论,并展示了几个潜在的应用场景(如背景移除、艺术设计、3D重建)。希望这些努力能够为学术界和工业界开辟有前景的研究方向。项目页面:https://xuebinqin.github.io/dis/index.html。
代码仓库
xuebinqin/DIS
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dichotomous-image-segmentation-on-dis-te1 | IS-Net | E-measure: 0.820 HCE: 149 MAE: 0.074 S-Measure: 0.787 max F-Measure: 0.740 weighted F-measure: 0.662 |
| dichotomous-image-segmentation-on-dis-te2 | IS-Net | E-measure: 0.858 HCE: 340 MAE: 0.07 S-Measure: 0.823 max F-Measure: 0.799 weighted F-measure: 0.728 |
| dichotomous-image-segmentation-on-dis-te3 | IS-Net | E-measure: 0.883 HCE: 687 MAE: 0.064 S-Measure: 0.836 max F-Measure: 0.830 weighted F-measure: 0.758 |
| dichotomous-image-segmentation-on-dis-te4 | IS-Net | E-measure: 0.87 HCE: 2888 MAE: 0.072 S-Measure: 0.83 max F-Measure: 0.827 weighted F-measure: 0.753 |
| dichotomous-image-segmentation-on-dis-vd | IS-Net | E-measure: 0.856 HCE: 1116 MAE: 0.074 S-Measure: 0.813 max F-Measure: 0.791 weighted F-measure: 0.717 |