
摘要
全景场景图生成(Panoptic Scene Graph Generation, PSG)解析物体并预测它们之间的关系(谓词),以连接人类语言和视觉场景。然而,注释者的不同语言偏好以及谓词之间的语义重叠导致数据集中存在偏倚的谓词注释,即同一对象对的不同谓词。这种偏倚的谓词注释使得PSG模型在构建谓词间的清晰决策平面时遇到困难,极大地阻碍了PSG模型的实际应用。为了解决上述固有的偏倚问题,我们提出了一种名为ADTrans的新框架,该框架能够自适应地将偏倚的谓词注释转换为信息丰富且统一的注释。为了保证转换过程中的一致性和准确性,我们提出测量每个谓词类别的表示不变性,并学习具有不同强度的无偏谓词原型。同时,我们持续测量每个表示与其原型之间的分布变化,并不断筛选潜在的偏倚数据。最终,在无偏谓词-原型表示嵌入空间中,偏倚注释得以轻松识别。实验结果表明,ADTrans显著提升了基准模型的性能,达到了新的最先进水平,并在多个数据集上展示了出色的泛化能力和有效性。
代码仓库
lili0415/psg-biased-annotation
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| panoptic-scene-graph-generation-on-psg | ADTrans | R@20: 26.0 mR@20: 26.4 |
| scene-graph-generation-on-visual-genome | ADTrans | Recall@50: 23.0 mR@100: 19.2 mR@50: 15.8 mean Recall @100: 19.2 mean Recall @20: 12.3 |