
摘要
近年来,随着大规模图像数据集的可用,图像分类技术取得了显著进展。然而,细粒度分类仍然是一个主要挑战,因为大量细粒度类别需要高昂的标注成本。本项目表明,即使没有标记的训练数据,也可以在这些类别上实现令人信服的分类性能。通过给定的图像和类别嵌入(embeddings),我们学习了一个兼容性函数,使得匹配的嵌入得分高于不匹配的嵌入;零样本图像分类的过程是找到具有最高联合兼容性得分的标签。我们使用最先进的图像特征,并专注于不同的监督属性和非监督输出嵌入(output embeddings),这些输出嵌入要么从层次结构中派生,要么从未标记的文本语料库中学习得到。我们在“带属性的动物”(Animals with Attributes)和“加州理工-UCSD鸟类”(Caltech-UCSD Birds)数据集上建立了显著改进的新基准。最令人鼓舞的是,我们证明了完全非监督的输出嵌入(从维基百科学习并用细粒度文本改进)可以取得令人信服的结果,甚至超过了之前的监督方法的最佳水平。通过结合不同的输出嵌入,我们进一步提高了结果。
代码仓库
inars/developing_mc_for_zsl
GitHub 中提及
mvp18/Popular-ZSL-Algorithms
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-image-classification-on-cub-200-0 | SJE | Accuracy: 50.1% |
| few-shot-image-classification-on-cub-200-2011-1 | SJE | Top-1 Accuracy: 50.1% |
| few-shot-image-classification-on-cub-200-50 | SJE Akata et al. (2015) | Accuracy: 50.1 |
| zero-shot-action-recognition-on-hmdb51 | SJE(word embedding) | Top-1 Accuracy: 13.3 |
| zero-shot-action-recognition-on-kinetics | SJE(Word Embedding) | Top-1 Accuracy: 22.3 Top-5 Accuracy: 48.2 |
| zero-shot-action-recognition-on-olympics | SJE(Atrribute) | Top-1 Accuracy: 47.5 |
| zero-shot-action-recognition-on-olympics | SJE(Word Embedding) | Top-1 Accuracy: 28.6 |
| zero-shot-action-recognition-on-ucf101 | SJE(Attribute) | Top-1 Accuracy: 12.0 |
| zero-shot-action-recognition-on-ucf101 | SJE(Word Embedding) | Top-1 Accuracy: 9.9 |