
摘要
零样本学习(Zero-shot learning)旨在对训练阶段未见类别进行分类,即在训练过程中不提供这些类别的任何样本数据。在广义零样本学习(generalized zero-shot learning)设定下,测试样本可能来自已见类别或未见类别。当前最先进方法依赖生成对抗网络(Generative Adversarial Networks, GANs),通过利用类别特定的语义嵌入(semantic embeddings)来合成未见类别的特征。然而,在训练阶段,这些方法生成语义一致的特征,但在特征合成与分类阶段却放弃了这一语义一致性约束。为此,我们提出在广义零样本学习的各个阶段——训练、特征合成与分类——均强制保持语义一致性。首先,我们引入一个来自语义嵌入解码器的反馈回路,该回路在训练和特征合成阶段迭代地优化生成的特征。随后,将合成的特征及其对应的解码器潜变量嵌入共同转换为更具判别性的特征表示,并用于分类过程,从而有效降低类别间的语义模糊性。在(广义)零样本物体与动作分类任务上的实验表明,语义一致性与迭代反馈机制显著提升了性能,在六个零样本学习基准测试中均优于现有方法。项目源代码已公开于:https://github.com/akshitac8/tfvaegan。
代码仓库
akshitac8/tfvaegan
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| generalized-zero-shot-learning-on-awa2 | GZSL_TF-VAEGAN | Harmonic mean: 66.6 |
| generalized-zero-shot-learning-on-cub-200 | GZSL_TF-VAEGAN | Harmonic mean: 58.1 |
| generalized-zero-shot-learning-on-oxford-102-1 | GZSL_TF-VAEGAN | Harmonic mean: 71.7 |
| generalized-zero-shot-learning-on-sun | GZSL_TF-VAEGAN | Harmonic mean: 43 |
| zero-shot-learning-on-awa2 | ZSL_TF-VAEGAN | average top-1 classification accuracy: 72.2 |
| zero-shot-learning-on-cub-200-2011 | ZSL_TF-VAEGAN | average top-1 classification accuracy: 64.9 |
| zero-shot-learning-on-oxford-102-flower | ZSL_TF-VAEGAN | average top-1 classification accuracy: 70.8 |
| zero-shot-learning-on-sun-attribute | ZSL_TF-VAEGAN | average top-1 classification accuracy: 66 |