4 个月前

PromptStyler:基于提示的风格生成用于无源域泛化

PromptStyler:基于提示的风格生成用于无源域泛化

摘要

在联合视觉-语言空间中,文本特征(例如,“一张狗的照片”)可以有效地表示其相关的图像特征(例如,来自狗照片的特征)。此外,最近的一项研究展示了这种联合空间的跨模态可迁移性现象。基于这些观察结果,我们提出了PromptStyler,该方法通过合成多样化的风格来模拟联合空间中的各种分布偏移,从而应对无源域泛化问题,而无需使用任何图像。所提出的方法通过可学习的风格词向量生成多种风格特征(例如,“一种S风格的a”),其中S为伪词。为了确保学习到的风格不会扭曲内容信息,我们强制风格-内容特征(例如,“一种S*风格的a [类别]”)在联合视觉-语言空间中靠近其对应的内容特征(例如,“[类别]”)。在学习了风格词向量之后,我们使用合成的风格-内容特征训练一个线性分类器。尽管PromptStyler在训练过程中不需要任何图像,但它在PACS、VLCS、OfficeHome和DomainNet数据集上达到了最先进的性能。

代码仓库

zhanghr2001/promptta
pytorch
GitHub 中提及

基准测试

基准方法指标
domain-generalization-on-domainnetPromptStyler (CLIP, ViT-L/14)
Average Accuracy: 65.5
domain-generalization-on-domainnetPromptStyler (CLIP, ResNet-50)
Average Accuracy: 49.5
domain-generalization-on-domainnetPromptStyler (CLIP, ViT-B/16)
Average Accuracy: 59.4
domain-generalization-on-office-homePromptStyler (CLIP, ResNet-50)
Average Accuracy: 73.6
domain-generalization-on-office-homePromptStyler (CLIP, ViT-B/16)
Average Accuracy: 83.6
domain-generalization-on-office-homePromptStyler (CLIP, ViT-L/14)
Average Accuracy: 89.1
domain-generalization-on-pacs-2PromptStyler (CLIP, ViT-L/14)
Average Accuracy: 98.6
domain-generalization-on-pacs-2PromptStyler (CLIP, ViT-B/16)
Average Accuracy: 97.2
domain-generalization-on-pacs-2PromptStyler (CLIP, ResNet-50)
Average Accuracy: 93.2
domain-generalization-on-vlcsPromptStyler (CLIP, ResNet-50)
Average Accuracy: 82.3
domain-generalization-on-vlcsPromptStyler (CLIP, ViT-L/14)
Average Accuracy: 82.4
domain-generalization-on-vlcsPromptStyler (CLIP, ViT-B/16)
Average Accuracy: 82.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PromptStyler:基于提示的风格生成用于无源域泛化 | 论文 | HyperAI超神经