3 个月前

无监督域自适应:利用视觉-语言预训练

无监督域自适应:利用视觉-语言预训练

摘要

本文针对无监督域自适应(Unsupervised Domain Adaptation, UDA)中的两个关键挑战,聚焦于挖掘视觉-语言预训练(Vision-Language Pre-training, VLP)模型的潜力,提出了一套创新性解决方案。首先,现有的UDA方法主要依赖于在ImageNet上预训练的视觉模型,而VLP模型在UDA任务中的潜力尚未得到充分探索。VLP模型所具备的丰富多模态表征能力,为提升UDA性能提供了巨大潜力。为此,本文提出一种名为跨模态知识蒸馏(Cross-Modal Knowledge Distillation, CMKD)的新方法,利用VLP模型作为教师模型,指导目标域中的学习过程,显著提升了模型性能,达到当前最优水平。其次,现有UDA范式通常为每个迁移任务单独训练模型,导致存储开销巨大,且随着迁移任务数量的增加,模型部署变得极不现实。为应对这一挑战,本文提出残差稀疏训练(Residual Sparse Training, RST)方法,充分利用VLP模型大规模预训练带来的优势。该方法仅需对VLP模型参数进行极小幅度的调整(约0.1%~0.5%),即可实现与微调(fine-tuning)相当的性能,极大降低了存储与计算成本。将CMKD与RST相结合,本文构建了一个全面的解决方案,既高效利用了VLP模型在UDA任务中的强大能力,又显著减少了模型部署时的存储负担。此外,CMKD可作为基线方法,与其他主流技术(如FixMatch)结合使用,进一步提升UDA的整体性能。在标准基准测试上,本文所提方法均显著优于现有技术。相关代码将公开于:https://github.com/Wenlve-Zhou/VLP-UDA。

基准测试

基准方法指标
domain-adaptation-on-imageclef-daCMKD
Accuracy: 94.3
domain-adaptation-on-office-31CMKD
Average Accuracy: 94.4
domain-adaptation-on-office-homeCMKD
Accuracy: 89.0
domain-adaptation-on-visda2017CMKD
Accuracy: 91.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督域自适应:利用视觉-语言预训练 | 论文 | HyperAI超神经