4 个月前

基于语言先验的视觉关系检测

基于语言先验的视觉关系检测

摘要

视觉关系捕捉了图像中对象对之间的多种交互(例如,“人骑自行车”和“人推自行车”)。因此,可能的关系集合非常庞大,难以为所有可能的关系获取足够的训练样本。由于这一限制,以往关于视觉关系检测的研究主要集中在预测少数几种关系上。尽管大多数关系出现频率较低,但它们的对象(如“人”和“自行车”)以及谓词(如“骑”和“推”)单独出现的频率较高。我们提出了一种模型,利用这一见解分别训练对象和谓词的视觉模型,然后将它们组合起来以预测每张图像中的多个关系。通过利用语义词嵌入提供的语言先验来微调预测关系的可能性,我们的模型在先前工作的基础上得到了改进。该模型可以从少量示例中扩展到预测数千种类型的关系。此外,我们还通过边界框在图像中定位预测关系中的对象。进一步研究表明,理解这些关系可以提高基于内容的图像检索效果。

基准测试

基准方法指标
scene-graph-generation-on-vrdVRD
Recall@50: 18.16
visual-relationship-detection-on-vrdLu et. al [[Lu et al.2016]]
R@100: 47.87
R@50: 47.87
visual-relationship-detection-on-vrd-1Lu et. al [[Lu et al.2016]]
R@100: 14.70
R@50: 13.86
visual-relationship-detection-on-vrd-phraseLu et. al [[Lu et al.2016]]
R@100: 17.03
R@50: 16.17

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语言先验的视觉关系检测 | 论文 | HyperAI超神经