
摘要
场景图生成(Scene Graph Generation, SGG)任务涉及在图像中检测对象并预测表示这些对象之间关系的谓词。然而,在SGG基准数据集中,每个主客体对仅标注了一个谓词,尽管单个谓词可能表现出多样的语义(即语义多样性),现有的SGG模型仍被训练为针对每对主客体预测唯一的谓词。这导致SGG模型忽视了谓词中存在的语义多样性,从而产生有偏见的预测结果。本文提出了一种新颖的模型无关型语义多样性感知原型学习(Diverse Prototype-based Learning, DPL)框架,该框架通过理解谓词的语义多样性来实现无偏预测。具体而言,DPL学习每个谓词在语义空间中所覆盖的区域,以区分单个谓词可以代表的各种不同语义。大量实验表明,我们提出的模型无关型DPL框架显著提升了现有SGG模型的性能,并且有效地理解了谓词的语义多样性。
代码仓库
jeonjaehyeong/dpl
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unbiased-scene-graph-generation-on-visual | DPL (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode) | F@100: 25.2 mR@20: 14.1 ng-mR@20: 18.5 |
| unbiased-scene-graph-generation-on-visual | DPL (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode) | F@100: 20.2 mR@20: 9.4 ng-mR@20: 10.0 |
| unbiased-scene-graph-generation-on-visual | DPL (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode) | F@100: 44.9 mR@20: 26.2 ng-mR@20: 31.3 |