4 个月前

从网络数据中学习视觉N-grams

从网络数据中学习视觉N-grams

摘要

现实世界中的图像识别系统需要识别数万个类别,这些类别构成了众多的视觉概念。传统的每类标注数千张图像以进行训练的方法在这种情况下是不可行的,这促使了网络监督数据的使用。本文探讨了在大量图像及其相关用户评论上训练图像识别系统的可能性。特别地,我们开发了视觉n-gram模型,该模型可以预测与图像内容相关的任意短语。我们的视觉n-gram模型是前馈卷积神经网络,通过受语言建模中常用的n-gram模型启发的新损失函数进行训练。我们在短语预测、基于短语的图像检索、图像与标题的关系建立以及零样本迁移等方面展示了我们模型的优势。

基准测试

基准方法指标
zero-shot-transfer-image-classification-onVisual N-Grams
Accuracy: 72.4
zero-shot-transfer-image-classification-on-2Visual N-Grams
Accuracy: 23.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从网络数据中学习视觉N-grams | 论文 | HyperAI超神经