
摘要
我们研究了生成视觉场景的结构化图表示的问题。本工作分析了图中的模体(motifs)的作用:即场景图中经常出现的子结构。我们在Visual Genome数据集中展示了这些重复结构的新定量见解。分析表明,对象标签对关系标签具有很高的预测性,但反之则不然。我们还发现,即使在较大的子图中也存在重复模式:超过50%的图包含涉及至少两个关系的模体。我们的分析激发了一种新的基线方法:给定对象检测结果,预测训练集中具有相同标签的对象对之间最频繁的关系。该基线方法在不同评估设置下相对于先前的最先进方法平均提高了3.6%。随后,我们引入了堆叠模体网络(Stacked Motif Networks),这是一种旨在捕捉场景图中高阶模体的新架构,进一步在我们的强基线方法上实现了平均7.1%的相对提升。我们的代码可在github.com/rowanz/neural-motifs获取。
代码仓库
HCPLab-SYSU/KERN
pytorch
GitHub 中提及
shikorab/SceneGraph
tf
GitHub 中提及
bknyaz/sgg
pytorch
GitHub 中提及
rowanz/neural-motifs
官方
pytorch
GitHub 中提及
yuweihao/KERN
pytorch
GitHub 中提及
microsoft/scene_graph_benchmark
pytorch
GitHub 中提及
zhangce01/HiKER-SGG
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| panoptic-scene-graph-generation-on-psg | MOTIFS | R@20: 20.0 mR@20: 9.10 |