4 个月前

视觉关系检测的视觉翻译嵌入网络

视觉关系检测的视觉翻译嵌入网络

摘要

视觉关系,如“人骑自行车”和“自行车在汽车旁边”,为图像提供了全面的场景理解,并已在连接计算机视觉和自然语言方面展现出巨大的实用性。然而,由于建模主语-谓语-宾语关系三元组的组合复杂性极具挑战性,目前对视觉关系的定位和预测研究甚少。受到知识库中关系表示学习以及卷积对象检测网络最新进展的启发,我们提出了一种用于视觉关系检测的视觉翻译嵌入网络(VTransE)。VTransE 将对象置于一个低维的关系空间中,在该空间中,关系可以被建模为简单的向量平移,即主语 + 谓语 ≈ 宾语。我们设计了一种新的特征提取层,该层以全卷积的方式支持对象-关系知识迁移,并能够在单次前向/后向传递中完成训练和推理。据我们所知,VTransE 是首个端到端的关系检测网络。我们在两个大规模数据集上展示了 VTransE 的有效性:Visual Relationship 和 Visual Genome 数据集。值得注意的是,尽管 VTransE 是一个纯粹的视觉模型,它仍然能够与卢氏基于语言先验的多模态模型相媲美。

基准测试

基准方法指标
visual-relationship-detection-on-vrdZhang et. al [[Hanwang Zhang2017]]
R@100: 44.76
R@50: 44.76
visual-relationship-detection-on-vrd-1Zhang et. al [[Hanwang Zhang2017]]
R@100: 15.20
R@50: 14.07
visual-relationship-detection-on-vrd-phraseZhang et. al [[Hanwang Zhang2017]]
R@100: 22.42
R@50: 19.42

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉关系检测的视觉翻译嵌入网络 | 论文 | HyperAI超神经