4 个月前

学习鲁棒的视觉-语义嵌入

学习鲁棒的视觉-语义嵌入

摘要

现有的许多图像和文本联合嵌入学习方法仅利用配对图像及其文本属性的监督信息。借鉴深度神经网络中无监督学习近期取得的成功,我们提出了一种端到端的学习框架,能够跨域提取更加鲁棒的多模态表示。该方法结合了表示学习模型(如自编码器)和跨域学习准则(如最大均值差异损失),以学习语义特征和视觉特征的联合嵌入。我们引入了一种新的无监督数据适应推理技术,用于构建涵盖标记数据和未标记数据的更全面的嵌入。我们在“Animals with Attributes”和“Caltech-UCSD Birds 200-2011”数据集上评估了我们的方法,涉及的应用范围广泛,包括从归纳设置到演绎设置的零样本和少样本图像识别与检索。实验证明,我们的框架在所考虑的许多任务上优于当前最先进的方法。

基准测试

基准方法指标
generalized-few-shot-learning-on-awa2REVISE
Per-Class Accuracy (1-shot): 56.1
Per-Class Accuracy (10-shots): 67.8
Per-Class Accuracy (2-shots): 60.3
Per-Class Accuracy (5-shots): 64.1
generalized-few-shot-learning-on-cubREVISE
Per-Class Accuracy (2-shots): 41.1
Per-Class Accuracy (1-shot): 36.3
Per-Class Accuracy (10-shots): 50.9
Per-Class Accuracy (5-shots): 44.6
generalized-few-shot-learning-on-sunREVISE
Per-Class Accuracy (1-shot): 27.4
Per-Class Accuracy (10-shots): 40.8
Per-Class Accuracy (2-shots): 33.4
Per-Class Accuracy (5-shots): 37.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习鲁棒的视觉-语义嵌入 | 论文 | HyperAI超神经