
摘要
零样本学习(Zero-shot Learning, ZSL)旨在预测在训练过程中从未出现过的类别。在零样本图像分类中,语义信息最为有效且应用广泛的是属性(attributes),即对类别级视觉特征的标注。然而,现有方法往往难以区分图像之间细微的视觉差异,这不仅源于细粒度标注的不足,还受到属性不平衡与共现问题的制约。本文提出一种基于Transformer的端到端零样本学习方法——DUET,该方法通过自监督多模态学习范式,融合预训练语言模型(Pre-trained Language Models, PLMs)中的潜在语义知识。具体而言,我们:(1)设计了一种跨模态语义对齐网络,以探究模型从图像中解耦语义属性的能力;(2)引入基于属性级别的对比学习策略,进一步增强模型在应对属性共现与不平衡问题时对细粒度视觉特征的区分能力;(3)提出一种多任务学习机制,以协同优化多种模态目标。实验结果表明,DUET在三个标准零样本学习基准以及一个基于知识图谱的零样本学习基准上均取得了当前最优性能。其各组件有效且模型预测具有良好的可解释性。
代码仓库
zjukg/DUET
官方
pytorch
GitHub 中提及
zjukg/structure-clip
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-learning-on-awa2 | DUET (Ours) | Accuracy Seen: 84.7 Accuracy Unseen: 63.7 H: 72.7 average top-1 classification accuracy: 69.9 |
| zero-shot-learning-on-cub-200-2011 | DUET | Accuracy Seen: 72.8 Accuracy Unseen: 62.9 H: 67.5 average top-1 classification accuracy: 72.3 |
| zero-shot-learning-on-sun-attribute | DUET (Ours) | Accuracy Seen: 45.8 Accuracy Unseen: 45.7 H: 45.8 average top-1 classification accuracy: 64.4 |