
摘要
场景图是图像的语义抽象,有助于视觉理解和推理。然而,在现实世界场景中面对有偏数据时,场景图生成(SGG)的性能不尽如人意。传统的去偏研究主要从平衡数据分布或学习无偏模型和表示的角度进行,忽略了有偏类之间的相关性。在本工作中,我们从一个新颖的认知视角分析了这一问题:通过自动构建层次认知结构,从有偏预测中导航该层次结构以定位关系,从而使尾部关系在粗到细的过程中获得更多关注。为此,我们提出了一种新的去偏认知树(CogTree)损失函数,用于无偏SGG。首先,我们根据有偏SGG模型的预测结果构建了一个认知结构——CogTree,该结构首先区分显著不同的关系,然后专注于一小部分容易混淆的关系。接着,我们为这种认知结构提出了一种专门的去偏损失函数,支持对正确关系进行从粗到细的区分。该损失函数与模型无关,并且能够持续提升多个最先进模型的性能。代码可在以下地址获取:https://github.com/CYVincent/Scene-Graph-Transformer-CogTree。
代码仓库
CYVincent/Scene-Graph-Transformer-CogTree
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-graph-generation-on-visual-genome | CogTree | mean Recall @20: 7.9 |
| unbiased-scene-graph-generation-on-visual | CogTree (VCTree-ResNeXt-101-FPN backbone; SGDet mode) | mR@20: 7.8 |
| unbiased-scene-graph-generation-on-visual | CogTree (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode) | F@100: 32.4 mR@20: 20.9 |
| unbiased-scene-graph-generation-on-visual | CogTree (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode) | mR@20: 7.9 |
| unbiased-scene-graph-generation-on-visual | CogTree (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode) | mR@20: 12.1 |
| unbiased-scene-graph-generation-on-visual | CogTree (VCTree-ResNeXt-101-FPN backbone; PredCls mode) | F@100: 35.9 mR@20: 22.0 |
| unbiased-scene-graph-generation-on-visual | CogTree (VCTree-ResNeXt-101-FPN backbone; SGCls mode) | mR@20: 15.4 |