3 个月前

DeViSE:一种深度视觉-语义嵌入模型

DeViSE:一种深度视觉-语义嵌入模型

摘要

现代视觉识别系统在扩展至大量物体类别时往往面临能力瓶颈。这一局限性部分源于随着物体类别数量的增加,获取足够标注图像作为训练数据的难度显著上升。一种可行的解决方案是利用其他数据源(如文本数据)来训练视觉模型,并对其预测结果进行约束。本文提出了一种新型的深度视觉-语义嵌入模型,该模型通过结合标注图像数据与从未标注文本中提取的语义信息,实现对视觉物体的识别。实验表明,该模型在1000类ImageNet物体识别任务上达到了当前最先进的性能水平,同时产生的错误更具语义合理性;此外,我们还证明,借助语义信息,模型能够对训练过程中未见过的数万个图像标签进行预测。在零样本(zero-shot)预测场景下,语义知识可使预测性能提升高达65%,在数千个模型从未见过的新标签上,最高命中率可达10%。

基准测试

基准方法指标
zero-shot-action-recognition-on-kineticsDEVISE
Top-1 Accuracy: 23.8
Top-5 Accuracy: 51.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供