4 个月前

PCPL:无偏场景图生成的谓词关联感知学习

PCPL:无偏场景图生成的谓词关联感知学习

摘要

今天,场景图生成(SGG)任务在现实场景中受到了极大的限制,主要是由于谓词注释分布存在严重的长尾偏差。因此,解决SGG中的类别不平衡问题至关重要且具有挑战性。本文首先发现,当谓词标签之间存在强烈相关性时,流行的再平衡策略(例如重采样和重新加权)会导致对尾部数据的过拟合(例如,将“长凳坐在人行道上”误认为“坐在”),或者仍然受到原始不均匀分布的负面影响(例如,将不同的“停放于”、“站立于”、“坐在”聚合为“位于”)。我们认为主要原因在于再平衡策略对谓词频率敏感但对其相关性视而不见,而后者可能在促进谓词特征学习方面发挥更重要的作用。为此,我们提出了一种新颖的谓词相关性感知学习方案(简称PCPL),该方案通过直接感知并利用谓词类之间的相关性来自适应地寻找合适的损失权重。此外,我们的PCPL框架还配备了一个图编码器模块,以更好地提取上下文特征。在基准VG150数据集上的大量实验表明,所提出的PCPL在尾部类别上表现显著提升的同时,也很好地保持了头部类别的性能,明显优于之前最先进的方法。

代码仓库

基准测试

基准方法指标
unbiased-scene-graph-generation-on-visualPCPL (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
F@100: 17.8
mR@20: 8.1
ng-mR@20: 9.9
unbiased-scene-graph-generation-on-visualPCPL (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
F@100: 23.2
mR@20: 12.7
ng-mR@20: 17.2
unbiased-scene-graph-generation-on-visualPCPL (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
F@100: 18.0
mR@20: 8.0
ng-mR@20: 9.8
unbiased-scene-graph-generation-on-visualPCPL (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
F@100: 34.6
mR@20: 18.7
ng-mR@20: 25.1
unbiased-scene-graph-generation-on-visualPCPL (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
F@100: 35.7
mR@20: 19.3
ng-mR@20: 25.6
unbiased-scene-graph-generation-on-visualPCPL (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
F@100: 18.8
mR@20: 9.9
ng-mR@20: 13.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PCPL:无偏场景图生成的谓词关联感知学习 | 论文 | HyperAI超神经