
摘要
在联合视觉-语言空间中,文本特征(例如,“一张狗的照片”)可以有效地表示其相关的图像特征(例如,来自狗照片的特征)。此外,最近的一项研究展示了这种联合空间的跨模态可迁移性现象。基于这些观察结果,我们提出了PromptStyler,该方法通过合成多样化的风格来模拟联合空间中的各种分布偏移,从而应对无源域泛化问题,而无需使用任何图像。所提出的方法通过可学习的风格词向量生成多种风格特征(例如,“一种S风格的a”),其中S为伪词。为了确保学习到的风格不会扭曲内容信息,我们强制风格-内容特征(例如,“一种S*风格的a [类别]”)在联合视觉-语言空间中靠近其对应的内容特征(例如,“[类别]”)。在学习了风格词向量之后,我们使用合成的风格-内容特征训练一个线性分类器。尽管PromptStyler在训练过程中不需要任何图像,但它在PACS、VLCS、OfficeHome和DomainNet数据集上达到了最先进的性能。
代码仓库
zhanghr2001/promptta
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-generalization-on-domainnet | PromptStyler (CLIP, ViT-L/14) | Average Accuracy: 65.5 |
| domain-generalization-on-domainnet | PromptStyler (CLIP, ResNet-50) | Average Accuracy: 49.5 |
| domain-generalization-on-domainnet | PromptStyler (CLIP, ViT-B/16) | Average Accuracy: 59.4 |
| domain-generalization-on-office-home | PromptStyler (CLIP, ResNet-50) | Average Accuracy: 73.6 |
| domain-generalization-on-office-home | PromptStyler (CLIP, ViT-B/16) | Average Accuracy: 83.6 |
| domain-generalization-on-office-home | PromptStyler (CLIP, ViT-L/14) | Average Accuracy: 89.1 |
| domain-generalization-on-pacs-2 | PromptStyler (CLIP, ViT-L/14) | Average Accuracy: 98.6 |
| domain-generalization-on-pacs-2 | PromptStyler (CLIP, ViT-B/16) | Average Accuracy: 97.2 |
| domain-generalization-on-pacs-2 | PromptStyler (CLIP, ResNet-50) | Average Accuracy: 93.2 |
| domain-generalization-on-vlcs | PromptStyler (CLIP, ResNet-50) | Average Accuracy: 82.3 |
| domain-generalization-on-vlcs | PromptStyler (CLIP, ViT-L/14) | Average Accuracy: 82.4 |
| domain-generalization-on-vlcs | PromptStyler (CLIP, ViT-B/16) | Average Accuracy: 82.9 |