4 个月前

弱监督视觉关系学习

弱监督视觉关系学习

摘要

本文介绍了一种新颖的方法,用于建模对象对之间的视觉关系。我们称这种关系为三元组(主体,谓语,客体),其中谓语通常是一个介词(例如“在...下面”,“在...前面”)或动词(“持有”,“骑乘”),用于连接一对对象(主体,客体)。学习此类关系具有挑战性,因为对象在不同的关系中具有不同的空间配置和外观。另一个主要挑战来自于获取所有可能三元组的注释,尤其是在框级别上的注释,这使得学习和评估都变得困难。本文的贡献有三个方面:首先,我们设计了强大而灵活的视觉特征,这些特征编码了对象对的外观和空间配置;其次,我们提出了一种弱监督判别聚类模型,仅使用图像级别的标签来学习关系;最后,我们引入了一个新的具有挑战性的非典型关系数据集(UnRel)及其详尽的注释,这使得对视觉关系检索进行准确评估成为可能。实验结果表明,我们的模型在视觉关系数据集上取得了最先进的性能,并显著提高了对先前未见过的关系(零样本学习)的性能,并且我们在新引入的UnRel数据集上也验证了这一观察结果。

基准测试

基准方法指标
visual-relationship-detection-on-vrdPeyre et. al [[Peyre et al.2017]]
R@100: 52.6
R@50: 52.6
visual-relationship-detection-on-vrd-1Peyre et. al [[Peyre et al.2017]]
R@100: 17.1
R@50: 15.8
visual-relationship-detection-on-vrd-phrasePeyre et. al [[Peyre et al.2017]]
R@100: 19.5
R@50: 17.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
弱监督视觉关系学习 | 论文 | HyperAI超神经