
摘要
在无监督域适应(UDA)中,一个在源数据(例如合成数据)上训练的模型被调整以适应目标数据(例如真实世界数据),而无需访问目标数据的注释。大多数先前的UDA方法在处理目标域中视觉外观相似的类别时遇到困难,因为没有可用的真实标签来学习这些细微的外观差异。为了解决这一问题,我们提出了一种掩码图像一致性(Masked Image Consistency, MIC)模块,通过学习目标域的空间上下文关系作为额外线索,增强UDA的鲁棒视觉识别能力。MIC强制要求掩码目标图像(其中随机区域被遮挡)的预测结果与基于完整图像生成的伪标签之间的一致性,这些伪标签是由指数移动平均教师模型生成的。为了最小化一致性损失,网络必须学会从上下文中推断出掩码区域的预测结果。由于其简单且通用的概念,MIC可以集成到各种视觉识别任务中的不同UDA方法中,如图像分类、语义分割和目标检测。MIC显著提高了合成到真实、白天到夜间以及晴朗天气到恶劣天气UDA的不同识别任务中的最先进性能。例如,在GTA-to-Cityscapes和VisDA-2017数据集上,MIC分别实现了前所未有的75.9 mIoU和92.8%的UDA性能,相比之前的方法分别提升了2.1和3.0个百分点。该实现代码可在https://github.com/lhoyer/MIC获取。
代码仓库
lhoyer/mic
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-adaptation-on-cityscapes-to-acdc | MIC | mIoU: 70.4 |
| domain-adaptation-on-gta5-to-cityscapes | MIC | mIoU: 75.9 |
| domain-adaptation-on-office-home | MIC | Accuracy: 86.2 |
| domain-adaptation-on-synthia-to-cityscapes | MIC | mIoU: 67.3 |
| domain-adaptation-on-visda2017 | MIC | Accuracy: 92.8 |
| image-to-image-translation-on-cityscapes-to | MIC | mAP: 47.6 |
| image-to-image-translation-on-gtav-to | MIC | mIoU: 75.9 |
| image-to-image-translation-on-synthia-to | MIC | mIoU (13 classes): 74.0 |
| semantic-segmentation-on-dark-zurich | MIC | mIoU: 60.2 |
| semantic-segmentation-on-gtav-to-cityscapes-1 | MIC | mIoU: 75.9 |
| semantic-segmentation-on-synthia-to | MIC | Mean IoU: 67.3 |
| synthetic-to-real-translation-on-gtav-to | HRDA+MIC | mIoU: 75.9 |
| synthetic-to-real-translation-on-synthia-to-1 | MIC | MIoU (13 classes): 74.0 MIoU (16 classes): 67.3 |
| unsupervised-domain-adaptation-on-cityscapes-1 | MIC | mAP@0.5: 47.6 |
| unsupervised-domain-adaptation-on-gtav-to | MIC | mIoU: 75.9 |
| unsupervised-domain-adaptation-on-synthia-to | MIC | mIoU: 67.3 mIoU (13 classes): 74.0 |