
摘要
领域泛化(Domain Generalization, DG)仍然是基于深度神经网络(Deep Neural Networks, DNNs)的感知任务面临的一个重大挑战,其中领域偏移可能由合成数据、光照、天气或位置变化引起。视觉-语言模型(Vision-Language Models, VLMs)在泛化能力方面取得了重大进展,并已应用于多种任务。最近,一些初步的方法利用VLMs实现了领域泛化的分割和目标检测,并获得了强大的泛化性能。然而,所有这些方法都依赖于复杂的模块、特征增强框架或额外的模型。令人惊讶的是,我们发现简单的微调视觉-语言预训练模型即可获得具有竞争力甚至更强的泛化结果,且应用起来极其简便。此外,我们还发现视觉-语言预训练在泛化能力上始终优于传统的仅视觉预训练。这挑战了使用基于ImageNet的迁移学习进行领域泛化的标准做法。当在合成GTA5数据集上进行训练时,完全微调一个视觉-语言预训练模型能够达到领域泛化的最先进水平(State-of-the-Art, SOTA)。此外,我们在一个新的从合成到真实世界的基准测试中验证了这一观察结果,该测试针对目标检测任务。通过进一步优化,我们在流行的Cityscapes到ACDC基准测试中达到了77.9%的平均交并比(mean Intersection over Union, mIoU)。我们还在域内泛化方面取得了改进,在Cityscapes测试集上达到了86.4%的mIoU,刷新了最先进水平,并在排行榜上位列第一。
代码仓库
VLTSeg/VLTSeg
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-generalization-on-gta-to-avg | VLTSeg | mIoU: 63.5 |
| domain-generalization-on-gta5-to-cityscapes | VLTSeg (EVA02-CLIP-L) | mIoU: 65.6 |
| robust-object-detection-on-dwd | VLTDet | mPC [AP50]: 36.9 |
| semantic-segmentation-on-bdd100k-val | VLTSeg | mIoU: 72.5 |
| semantic-segmentation-on-cityscapes | VLTSeg | Mean IoU (class): 86.4 |