
摘要
深度卷积神经网络在语义分割任务中显著提升了当前的最先进水平。然而,即便是一些现代网络架构,在面对来自不同领域(domain)的测试数据时,仍难以实现良好的泛化能力。为了规避对未见领域数据进行昂贵标注的难题,无监督域自适应(Unsupervised Domain Adaptation, UDA)旨在实现从带标签的源域到无标签目标域之间的高效知识迁移。以往的研究主要通过对抗训练或自训练(self-training)来最小化源域与目标域之间的分布差异。然而,对抗训练可能因仅关注全局分布的差异最小化,而无法准确对齐语义类别;自训练则面临如何生成可靠伪标签(pseudo-labels)的挑战。为实现跨域语义类别的正确对齐,本文提出一种基于对比学习(contrastive learning)的方法,通过在域间自适应地调整类别中心(category-wise centroids)来实现对齐。此外,我们进一步将该方法与自训练相结合,利用一种内存高效的时序集成(temporal ensemble)机制,生成一致且可靠的伪标签。尽管对比学习与基于时序集成的自训练(CLST)各自均能实现域间知识迁移,但二者结合所形成的协同结构(symbiotic structure)带来了更优的性能表现。我们在两个经典的域自适应基准数据集上验证了所提方法:GTA5 → Cityscapes 和 SYNTHIA → Cityscapes。实验结果表明,我们的方法在性能上优于或至少可与当前最先进方法相媲美。相关代码将公开发布,以促进后续研究。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| synthetic-to-real-translation-on-gtav-to | CLST | mIoU: 51.6 |
| synthetic-to-real-translation-on-synthia-to-1 | CLST(ResNet-101) | MIoU (13 classes): 57.8 MIoU (16 classes): 49.8 |