
摘要
今天,场景图生成(SGG)任务在现实场景中受到了极大的限制,主要是由于谓词注释分布存在严重的长尾偏差。因此,解决SGG中的类别不平衡问题至关重要且具有挑战性。本文首先发现,当谓词标签之间存在强烈相关性时,流行的再平衡策略(例如重采样和重新加权)会导致对尾部数据的过拟合(例如,将“长凳坐在人行道上”误认为“坐在”),或者仍然受到原始不均匀分布的负面影响(例如,将不同的“停放于”、“站立于”、“坐在”聚合为“位于”)。我们认为主要原因在于再平衡策略对谓词频率敏感但对其相关性视而不见,而后者可能在促进谓词特征学习方面发挥更重要的作用。为此,我们提出了一种新颖的谓词相关性感知学习方案(简称PCPL),该方案通过直接感知并利用谓词类之间的相关性来自适应地寻找合适的损失权重。此外,我们的PCPL框架还配备了一个图编码器模块,以更好地提取上下文特征。在基准VG150数据集上的大量实验表明,所提出的PCPL在尾部类别上表现显著提升的同时,也很好地保持了头部类别的性能,明显优于之前最先进的方法。
代码仓库
coldmanck/recovering-unbiased-scene-graphs
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unbiased-scene-graph-generation-on-visual | PCPL (VCTree-ResNeXt-101-FPN backbone; SGDet mode) | F@100: 17.8 mR@20: 8.1 ng-mR@20: 9.9 |
| unbiased-scene-graph-generation-on-visual | PCPL (VCTree-ResNeXt-101-FPN backbone; SGCls mode) | F@100: 23.2 mR@20: 12.7 ng-mR@20: 17.2 |
| unbiased-scene-graph-generation-on-visual | PCPL (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode) | F@100: 18.0 mR@20: 8.0 ng-mR@20: 9.8 |
| unbiased-scene-graph-generation-on-visual | PCPL (VCTree-ResNeXt-101-FPN backbone; PredCls mode) | F@100: 34.6 mR@20: 18.7 ng-mR@20: 25.1 |
| unbiased-scene-graph-generation-on-visual | PCPL (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode) | F@100: 35.7 mR@20: 19.3 ng-mR@20: 25.6 |
| unbiased-scene-graph-generation-on-visual | PCPL (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode) | F@100: 18.8 mR@20: 9.9 ng-mR@20: 13.1 |