6 个月前

摘要

在计算机视觉领域，无需监督即可学习图像的稠密语义表示是一个重要问题。然而，尽管其意义重大，该问题至今仍鲜有深入研究，仅有少数工作在小规模数据集且视觉领域较为狭窄的情况下探索了无监督语义分割。本文首次尝试在传统上用于监督学习任务的大规模数据集上解决该问题。为实现这一目标，我们提出一种两阶段框架，通过在对比优化目标中引入预设的中层先验（mid-level prior），以学习像素级嵌入表示。这一方法与现有工作存在显著差异——后者通常依赖代理任务或端到端聚类策略。此外，我们强调了包含物体或其局部结构信息的先验的重要性，并探讨了在无监督条件下获取此类先验的多种可行途径。实验结果表明，本文方法相较于现有方法具有多项关键优势。首先，在PASCAL数据集上，所学习的像素嵌入可直接通过K-Means聚类划分为语义类别，且在完全无监督的设定下，这是首次在如此具有挑战性的基准上成功实现语义分割任务。其次，当将所学表示迁移至新数据集（如COCO和DAVIS）时，模型性能仍能显著超越多个强基准方法。相关代码已公开。

源 PDF