
摘要
在本文中,我们首先评估并充分利用各类视觉基础模型(Vision Foundation Models, VFMs)在领域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)任务中的潜力。受“利用更强的预训练模型并以更少的可训练参数实现更优泛化能力”这一动机的驱动,我们提出了一种稳健的微调方法——Rein,该方法能够以参数高效的方式挖掘VFMs在DGSS任务中的潜力。Rein基于一组可训练的令牌(trainable tokens)构建,每个令牌与不同的图像实例相关联,能够精确地对骨干网络中每一层的特征图进行细化,并将其传递至下一层。这一过程在单张图像内为不同类别生成多样化的特征优化结果。得益于极少量的可训练参数,Rein能够高效地微调VFMs以应对DGSS任务,其性能甚至出人意料地超越了全参数微调方法。在多种设置下的大量实验表明,Rein显著优于当前最先进的方法。尤为突出的是,仅在冻结的骨干网络中引入额外1%的可训练参数,Rein在Cityscapes数据集上便实现了78.4%的平均交并比(mIoU),且无需访问任何真实的城市场景数据集。代码已开源,地址为:https://github.com/w1oves/Rein.git。
代码仓库
w1oves/rein
官方
pytorch
GitHub 中提及
cuzyoung/crossearth
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-adaptation-on-cityscapes-to-acdc | Rein | mIoU: 77.6 |
| domain-adaptation-on-gtav-to-cityscapes-1 | Rein | mIoU: 63.3 |
| domain-generalization-on-gta-to-avg | Rein | mIoU: 64.3 |
| domain-generalization-on-gta5-to-cityscapes | Rein | mIoU: 66.4 |