
摘要
在视觉变换器(Vision Transformers, ViTs)在计算机视觉领域取得巨大成功之后,它们也在域适应语义分割中展现出了巨大的潜力。然而,直接将局部ViT应用于域适应语义分割并未带来预期的改进。我们发现,局部ViT的问题在于伪标签构建和目标域特征对齐过程中产生的严重高频成分。这些高频成分使得局部ViT的训练非常不稳定,并损害了其迁移能力。在本文中,我们引入了一种低通滤波机制——动量网络(momentum network),以平滑目标域特征和伪标签的学习动态。此外,我们提出了一种动态差异度量方法,通过动态权重评估样本的重要性,从而实现源域和目标域分布的对齐。解决上述问题后,我们在模拟到真实场景的基准测试中进行了大量实验,结果表明所提出的方法优于现有最先进的方法。我们的代码已开源,可在https://github.com/alpc91/TransDA 获取。
代码仓库
alpc91/transda
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-adaptation-on-gta5-to-cityscapes | TransDA-B | mIoU: 63.9 |
| image-to-image-translation-on-gtav-to | TransDA-B | mIoU: 63.9 |
| image-to-image-translation-on-synthia-to | TransDA-B | mIoU (13 classes): 66.3 |
| semantic-segmentation-on-gtav-to-cityscapes-1 | TransDA-B | mIoU: 63.9 |
| semantic-segmentation-on-synthia-to | TransDA-B | Mean IoU: 59.3 |
| synthetic-to-real-translation-on-gtav-to | TransDA-B | mIoU: 63.9 |
| synthetic-to-real-translation-on-synthia-to-1 | TransDA-B | MIoU (13 classes): 66.3 MIoU (16 classes): 59.3 |
| unsupervised-domain-adaptation-on-gtav-to | TransDA-B | mIoU: 63.9 |
| unsupervised-domain-adaptation-on-synthia-to | TransDA-B | mIoU (13 classes): 66.3 |