
摘要
场景图生成(Scene Graph Generation)通常遵循一个标准的编码器-解码器管道,旨在首先对给定图像中的视觉内容进行编码,然后将其解析为一个紧凑的摘要图。现有的场景图生成方法不仅忽视了视觉和语言之间的模态融合不足问题,还由于关系预测的偏差而无法提供丰富的谓词信息,导致场景图生成距离实际应用仍有较大差距。为此,本文首先提出了一种新颖的堆叠混合注意力网络(Stacked Hybrid-Attention network),该网络促进了模态内的精炼以及模态间的交互,作为编码器使用。接着,我们设计了一种创新的组协同学习策略来优化解码器。具体而言,鉴于单一分类器在处理极度不平衡的数据集时识别能力有限这一观察结果,我们首先部署了一组专门用于区分不同类别子集的分类器,然后从两个方面协同优化这些分类器以促进无偏见的场景图生成。在VG和GQA数据集上进行的实验表明,我们在无偏见指标上不仅建立了新的最先进水平,而且与两种基线方法相比,性能几乎翻倍。
代码仓库
dongxingning/sha-gcl-for-sgg
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unbiased-scene-graph-generation-on-visual | SHA-GCL (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode) | mR@20: 35.6 |