4 个月前

神经图元:基于全局上下文的场景图解析

神经图元:基于全局上下文的场景图解析

摘要

我们研究了生成视觉场景的结构化图表示的问题。本工作分析了图中的模体(motifs)的作用:即场景图中经常出现的子结构。我们在Visual Genome数据集中展示了这些重复结构的新定量见解。分析表明,对象标签对关系标签具有很高的预测性,但反之则不然。我们还发现,即使在较大的子图中也存在重复模式:超过50%的图包含涉及至少两个关系的模体。我们的分析激发了一种新的基线方法:给定对象检测结果,预测训练集中具有相同标签的对象对之间最频繁的关系。该基线方法在不同评估设置下相对于先前的最先进方法平均提高了3.6%。随后,我们引入了堆叠模体网络(Stacked Motif Networks),这是一种旨在捕捉场景图中高阶模体的新架构,进一步在我们的强基线方法上实现了平均7.1%的相对提升。我们的代码可在github.com/rowanz/neural-motifs获取。

代码仓库

HCPLab-SYSU/KERN
pytorch
GitHub 中提及
shikorab/SceneGraph
tf
GitHub 中提及
bknyaz/sgg
pytorch
GitHub 中提及
rowanz/neural-motifs
官方
pytorch
GitHub 中提及
yuweihao/KERN
pytorch
GitHub 中提及
microsoft/scene_graph_benchmark
pytorch
GitHub 中提及
zhangce01/HiKER-SGG
pytorch
GitHub 中提及

基准测试

基准方法指标
panoptic-scene-graph-generation-on-psgMOTIFS
R@20: 20.0
mR@20: 9.10

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
神经图元:基于全局上下文的场景图解析 | 论文 | HyperAI超神经