8 个月前

摘要

语义分割具有广泛的应用前景，但其实际应用受到了高昂标注成本的显著限制。无需监督的分割方法可以规避这些成本，但需要提供来自目标分布的带标签示例来为预测结果分配概念名称，这带来了不便。近期，语言-图像预训练领域的另一种研究路线展示了生成模型的潜力，这些模型不仅能够在大量概念词汇中分配名称，还能实现零样本分类迁移，但在分割能力方面未能达到相应水平。在本工作中，我们努力实现这两种方法的优势结合。我们利用一种语言-图像预训练模型（CLIP）的检索能力，从无标签图像中动态构建任意概念名称集合的训练集，并利用现代图像表示提供的稳健对应关系对生成的集合中的实体进行共分割。然后，我们使用合成的分割集合构建一个分割模型（无需像素级标签），该模型的概念知识继承自CLIP的大规模预训练过程。我们证明了我们的方法——称为检索和共分割（ReCo）——在性能上优于无监督分割方法，同时继承了可命名预测和零样本迁移的优势。此外，我们还展示了ReCo生成极罕见对象的专业分割器的能力。

源 PDF