
摘要
本文提出一种新方法,用于解决领域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)问题,该方法通过利用视觉-语言模型文本嵌入中的领域不变语义知识来实现。我们将文本嵌入作为基于Transformer的分割框架中的对象查询(即“文本对象查询”),将其视为DGSS中像素分组的领域不变基础。为充分发挥文本对象查询的潜力,我们提出一种新型框架——文本查询驱动的掩码Transformer(textual query-driven mask transformer, tqdm)。该框架旨在实现两个目标:(1)生成最大程度编码领域不变语义的文本对象查询;(2)提升密集视觉特征的语义清晰度。此外,我们设计了三种正则化损失函数,通过增强视觉特征与文本特征之间的对齐,进一步提升tqdm的性能。借助本方法,模型能够理解目标类别内在的语义信息,从而实现对极端领域(如素描风格)的强泛化能力。在GTA5→Cityscapes基准上,tqdm取得了68.9 mIoU的性能,相较于先前最先进方法提升2.5 mIoU。项目主页详见:https://byeonghyunpak.github.io/tqdm。
代码仓库
ByeongHyunPak/tqdm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-generalization-on-gta-to-avg | tqdm (EVA02-CLIP-L) | mIoU: 66.05 |
| domain-generalization-on-gta5-to-cityscapes | tqdm (EVA02-CLIP-L) | mIoU: 68.88 |