4 个月前

平滑问题:用于领域适应语义分割的动量变压器

平滑问题:用于领域适应语义分割的动量变压器

摘要

在视觉变换器(Vision Transformers, ViTs)在计算机视觉领域取得巨大成功之后,它们也在域适应语义分割中展现出了巨大的潜力。然而,直接将局部ViT应用于域适应语义分割并未带来预期的改进。我们发现,局部ViT的问题在于伪标签构建和目标域特征对齐过程中产生的严重高频成分。这些高频成分使得局部ViT的训练非常不稳定,并损害了其迁移能力。在本文中,我们引入了一种低通滤波机制——动量网络(momentum network),以平滑目标域特征和伪标签的学习动态。此外,我们提出了一种动态差异度量方法,通过动态权重评估样本的重要性,从而实现源域和目标域分布的对齐。解决上述问题后,我们在模拟到真实场景的基准测试中进行了大量实验,结果表明所提出的方法优于现有最先进的方法。我们的代码已开源,可在https://github.com/alpc91/TransDA 获取。

代码仓库

alpc91/transda
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
domain-adaptation-on-gta5-to-cityscapesTransDA-B
mIoU: 63.9
image-to-image-translation-on-gtav-toTransDA-B
mIoU: 63.9
image-to-image-translation-on-synthia-toTransDA-B
mIoU (13 classes): 66.3
semantic-segmentation-on-gtav-to-cityscapes-1TransDA-B
mIoU: 63.9
semantic-segmentation-on-synthia-toTransDA-B
Mean IoU: 59.3
synthetic-to-real-translation-on-gtav-toTransDA-B
mIoU: 63.9
synthetic-to-real-translation-on-synthia-to-1TransDA-B
MIoU (13 classes): 66.3
MIoU (16 classes): 59.3
unsupervised-domain-adaptation-on-gtav-toTransDA-B
mIoU: 63.9
unsupervised-domain-adaptation-on-synthia-toTransDA-B
mIoU (13 classes): 66.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
平滑问题:用于领域适应语义分割的动量变压器 | 论文 | HyperAI超神经