4 个月前

学习细粒度视觉描述的深度表示

学习细粒度视觉描述的深度表示

摘要

最先进的零样本视觉识别方法将学习问题表述为图像和辅助信息的联合嵌入问题。在这些方法中,目前最佳的视觉特征补充是属性:手动编码的向量,用于描述类别之间的共有特性。尽管性能良好,但属性存在局限性:(1)细粒度识别需要相应更多的属性;(2)属性不能提供自然语言接口。我们提出通过从头开始训练神经语言模型来克服这些局限性;即不进行预训练,仅使用单词和字符作为输入。我们提出的模型端到端地训练以对齐图像的细粒度和类别特定内容。自然语言提供了一种灵活且紧凑的方式来编码区分类别的显著视觉方面。通过在原始文本上进行训练,我们的模型也可以在原始文本上进行推理,从而为人类提供了一个熟悉的注释和检索模式。我们的模型在基于文本的零样本图像检索任务中表现出色,并且在Caltech UCSD Birds 200-2011数据集上的零样本分类任务中显著优于基于属性的最先进方法。

代码仓库

Maymaher/StackGANv2
pytorch
GitHub 中提及
rightlit/StackGAN-v2-rev
pytorch
GitHub 中提及
reedscot/cvpr2016
GitHub 中提及
Vishal-V/StackGAN
tf
GitHub 中提及
priscillalui/StackGAN-Stories
pytorch
GitHub 中提及
Vigneshthanga/stackGAN-v2
pytorch
GitHub 中提及
hanzhanggit/StackGAN-v2
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-image-classification-on-cub-200-2011-1Word CNN-RNN (DS-SJE Embedding)
AP50: 48.7
Top-1 Accuracy: 56.8%
few-shot-image-classification-on-cub-200-50DA-SJE Reed et al. (2016)
Accuracy: 50.9
few-shot-image-classification-on-cub-200-50DS-SJE Reed et al. (2016)
Accuracy: 50.4
few-shot-image-classification-on-flowers-102-1Word CNN-RNN (DS-SJE Embedding)
AP50: 59.6
Accuracy: 65.6%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习细粒度视觉描述的深度表示 | 论文 | HyperAI超神经