
摘要
尽管大规模预训练视觉-语言模型(VLMs)在众多下游任务中取得了前所未有的成功,但其在真实世界中的无监督域自适应(Unsupervised Domain Adaptation, UDA)问题仍鲜有深入研究。为此,本文首次通过实验验证了:经过无监督训练的VLMs能够显著缩小源域与目标域之间的分布差异,从而有效提升UDA任务的性能。然而,将此类模型直接应用于下游UDA任务面临一个关键挑战——提示工程(prompt engineering),其核心在于对齐源域与目标域的领域知识,因为UDA的性能严重依赖于具有领域不变性的表征。为此,本文进一步提出一种基于提示的分布对齐方法(Prompt-based Distribution Alignment, PDA),旨在将领域知识融入提示学习过程。具体而言,PDA采用双分支提示调优框架,包括基础分支与对齐分支。基础分支专注于将与类别相关的表征融入提示,以确保不同类别之间的有效区分;为进一步降低域间差异,对齐分支构建了源域与目标域各自的特征库,并提出图像引导的特征调优(Image-guided Feature Tuning, IFT)机制,使模型输入能够关注特征库,从而有效融合自增强特征与跨域特征。通过这种双分支协同机制,两个分支相互促进,显著增强了VLM在UDA任务中的适应能力。我们在三个主流基准数据集上进行了大量实验,结果表明,所提出的PDA方法在性能上达到了当前最优水平。相关代码已开源,地址为:https://github.com/BaiShuanghao/Prompt-based-Distribution-Alignment。
代码仓库
baishuanghao/prompt-based-distribution-alignment
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-domain-adaptation-on-office-31 | PDA (CLIP, ViT-B/16) | Accuracy: 91.2 |
| unsupervised-domain-adaptation-on-office-home | PDA (CLIP, ResNet-50) | Accuracy: 75.3 |
| unsupervised-domain-adaptation-on-office-home | PDA (CLIP, ViT-B/16) | Accuracy: 85.7 |
| unsupervised-domain-adaptation-on-visda2017 | PDA (CLIP, ViT-B/16) | Accuracy: 89.7 |
| unsupervised-domain-adaptation-on-visda2017 | PDA (CLIP, ResNet-101) | Accuracy: 86.4 |