NorouziMohammad ; MikolovTomas ; BengioSamy ; SingerYoram ; ShlensJonathon ; FromeAndrea ; CorradoGreg S. ; DeanJeffrey

摘要
近期的几篇论文提出了将图像映射到连续语义嵌入空间的方法。在某些情况下,嵌入空间与图像转换是联合训练的;而在其他情况下,语义嵌入空间则是通过独立的自然语言处理任务建立的,随后再学习将图像转换到该空间中。这些图像嵌入系统的支持者强调了它们相对于传统多类别分类框架在图像理解上的优势,尤其是在零样本学习(zero-shot learning)方面的潜力——即能够正确标注以前未见过的对象类别的图像。本文中,我们提出了一种从任何现有的多类别图像分类器和包含 $\n$ 个类别标签词汇的语义词嵌入模型构建图像嵌入系统的方法。我们的方法通过类别标签嵌入向量的凸组合将图像映射到语义嵌入空间,并且不需要额外的训练。我们展示了这一简单直接的方法具有许多与更复杂的图像嵌入方案相关的优点,并且在 ImageNet 零样本学习任务上确实超过了当前最先进的方法。
代码仓库
JudyYe/zero-shot-gcn
tf
GitHub 中提及
ruotianluo/zsl-gcn-pth
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-image-classification-on-imagenet-0 | ConSE | Accuracy: 1.4% |
| multi-label-zero-shot-learning-on-open-images | CONSE | MAP: 40.4 |