3 个月前

更强、更少、更优:利用视觉基础模型实现领域泛化的语义分割

更强、更少、更优:利用视觉基础模型实现领域泛化的语义分割

摘要

在本文中,我们首先评估并充分利用各类视觉基础模型(Vision Foundation Models, VFMs)在领域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)任务中的潜力。受“利用更强的预训练模型并以更少的可训练参数实现更优泛化能力”这一动机的驱动,我们提出了一种稳健的微调方法——Rein,该方法能够以参数高效的方式挖掘VFMs在DGSS任务中的潜力。Rein基于一组可训练的令牌(trainable tokens)构建,每个令牌与不同的图像实例相关联,能够精确地对骨干网络中每一层的特征图进行细化,并将其传递至下一层。这一过程在单张图像内为不同类别生成多样化的特征优化结果。得益于极少量的可训练参数,Rein能够高效地微调VFMs以应对DGSS任务,其性能甚至出人意料地超越了全参数微调方法。在多种设置下的大量实验表明,Rein显著优于当前最先进的方法。尤为突出的是,仅在冻结的骨干网络中引入额外1%的可训练参数,Rein在Cityscapes数据集上便实现了78.4%的平均交并比(mIoU),且无需访问任何真实的城市场景数据集。代码已开源,地址为:https://github.com/w1oves/Rein.git。

代码仓库

w1oves/rein
官方
pytorch
GitHub 中提及
cuzyoung/crossearth
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
更强、更少、更优:利用视觉基础模型实现领域泛化的语义分割 | 论文 | HyperAI超神经