
摘要
理解视觉场景不仅仅是孤立地识别单个对象。对象之间的关系也构成了关于该场景的丰富语义信息。在本研究中,我们使用场景图(scene graphs)显式建模对象及其关系,这是一种基于图像的图形结构。我们提出了一种新颖的端到端模型,可以从输入图像生成这种结构化的场景表示。该模型利用标准循环神经网络(RNNs)解决场景图推理问题,并通过消息传递机制迭代地改进其预测结果。我们的联合推理模型能够利用上下文线索,从而对对象及其关系做出更准确的预测。实验结果表明,我们的模型在使用Visual Genome数据集生成场景图以及使用NYU Depth v2数据集推断支撑关系方面显著优于先前的方法。
代码仓库
shikorab/SceneGraph
tf
GitHub 中提及
bknyaz/sgg
pytorch
GitHub 中提及
joshuafeinglass/vl-detector-eval
pytorch
GitHub 中提及
microsoft/scene_graph_benchmark
pytorch
GitHub 中提及
zhangce01/HiKER-SGG
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| panoptic-scene-graph-generation-on-psg | IMP | R@20: 16.5 mR@20: 6.52 |