4 个月前

强大而简单:基于CLIP的迁移学习在领域泛化密集感知中的基线方法

强大而简单:基于CLIP的迁移学习在领域泛化密集感知中的基线方法

摘要

领域泛化(Domain Generalization, DG)仍然是基于深度神经网络(Deep Neural Networks, DNNs)的感知任务面临的一个重大挑战,其中领域偏移可能由合成数据、光照、天气或位置变化引起。视觉-语言模型(Vision-Language Models, VLMs)在泛化能力方面取得了重大进展,并已应用于多种任务。最近,一些初步的方法利用VLMs实现了领域泛化的分割和目标检测,并获得了强大的泛化性能。然而,所有这些方法都依赖于复杂的模块、特征增强框架或额外的模型。令人惊讶的是,我们发现简单的微调视觉-语言预训练模型即可获得具有竞争力甚至更强的泛化结果,且应用起来极其简便。此外,我们还发现视觉-语言预训练在泛化能力上始终优于传统的仅视觉预训练。这挑战了使用基于ImageNet的迁移学习进行领域泛化的标准做法。当在合成GTA5数据集上进行训练时,完全微调一个视觉-语言预训练模型能够达到领域泛化的最先进水平(State-of-the-Art, SOTA)。此外,我们在一个新的从合成到真实世界的基准测试中验证了这一观察结果,该测试针对目标检测任务。通过进一步优化,我们在流行的Cityscapes到ACDC基准测试中达到了77.9%的平均交并比(mean Intersection over Union, mIoU)。我们还在域内泛化方面取得了改进,在Cityscapes测试集上达到了86.4%的mIoU,刷新了最先进水平,并在排行榜上位列第一。

代码仓库

VLTSeg/VLTSeg
pytorch
GitHub 中提及

基准测试

基准方法指标
domain-generalization-on-gta-to-avgVLTSeg
mIoU: 63.5
domain-generalization-on-gta5-to-cityscapesVLTSeg (EVA02-CLIP-L)
mIoU: 65.6
robust-object-detection-on-dwdVLTDet
mPC [AP50]: 36.9
semantic-segmentation-on-bdd100k-valVLTSeg
mIoU: 72.5
semantic-segmentation-on-cityscapesVLTSeg
Mean IoU (class): 86.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
强大而简单:基于CLIP的迁移学习在领域泛化密集感知中的基线方法 | 论文 | HyperAI超神经