
摘要
学习图像表示以捕捉细粒度语义一直是具有挑战性和重要意义的任务,它使得许多应用如图像搜索和聚类成为可能。在本文中,我们提出了一种大规模神经图学习框架——图正则化图像语义嵌入(Graph-RISE),该框架使我们能够训练嵌入以区分前所未有的O(40M)超细粒度语义标签。Graph-RISE在多个评估任务上超越了现有的最先进的图像嵌入算法,包括图像分类和三元组排序。我们通过案例研究展示了基于Graph-RISE的图像检索在定性上能够有效捕捉语义,并且与现有最先进技术相比,能够在更接近人类感知的水平上区分细微差别。
代码仓库
tensorflow/neural-structured-learning
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | Graph-RISE (40M) | Top 1 Accuracy: 68.29% |
| image-classification-on-inaturalist | Graph-RISE (40M) | Top 1 Accuracy: 31.12% Top 5 Accuracy: 52.76% |