
摘要
我们研究单次分割(one-shot segmentation)问题:在杂乱场景中,仅根据一个示例指令,识别并分割出一个此前从未见过的物体。为此,我们提出了一种新的数据集,命名为 $\textit{cluttered Omniglot}$。通过采用一种基础架构——结合孪生网络(Siamese embedding)用于检测、U-net 用于分割——我们发现,随着场景杂乱程度的增加,该任务的难度也随之逐步提升。通过引入具备不同规模真实标签信息访问权限的“理想模型”(oracle models),我们对问题的多个方面进行了评估,结果表明,在此类视觉搜索任务中,检测与分割是相互交织的两个问题,解决其中一个有助于推动另一个的优化。因此,我们提出了 $\textit{MaskNet}$,一种改进型模型,该模型能够关注多个候选位置,生成分割提案以掩蔽背景杂乱区域,并在分割出的物体中进行选择。我们的研究结果表明,基于对象检测与前景分割的迭代优化机制的图像识别模型,可能为处理高度杂乱的场景提供一种有效途径。
代码仓库
michaelisc/cluttered-omniglot
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| one-shot-segmentation-on-cluttered-omniglot | MaskNet | IoU [256 distractors]: 43.7 IoU [32 distractors]: 65.6 IoU [4 distractors]: 95.8 |
| one-shot-segmentation-on-cluttered-omniglot | Siamese-U-Net | IoU [256 distractors]: 38.4 IoU [32 distractors]: 62.4 IoU [4 distractors]: 97.1 |