4 个月前

面向语义多样性的原型学习以实现无偏场景图生成

面向语义多样性的原型学习以实现无偏场景图生成

摘要

场景图生成(Scene Graph Generation, SGG)任务涉及在图像中检测对象并预测表示这些对象之间关系的谓词。然而,在SGG基准数据集中,每个主客体对仅标注了一个谓词,尽管单个谓词可能表现出多样的语义(即语义多样性),现有的SGG模型仍被训练为针对每对主客体预测唯一的谓词。这导致SGG模型忽视了谓词中存在的语义多样性,从而产生有偏见的预测结果。本文提出了一种新颖的模型无关型语义多样性感知原型学习(Diverse Prototype-based Learning, DPL)框架,该框架通过理解谓词的语义多样性来实现无偏预测。具体而言,DPL学习每个谓词在语义空间中所覆盖的区域,以区分单个谓词可以代表的各种不同语义。大量实验表明,我们提出的模型无关型DPL框架显著提升了现有SGG模型的性能,并且有效地理解了谓词的语义多样性。

代码仓库

jeonjaehyeong/dpl
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
unbiased-scene-graph-generation-on-visualDPL (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
F@100: 25.2
mR@20: 14.1
ng-mR@20: 18.5
unbiased-scene-graph-generation-on-visualDPL (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
F@100: 20.2
mR@20: 9.4
ng-mR@20: 10.0
unbiased-scene-graph-generation-on-visualDPL (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
F@100: 44.9
mR@20: 26.2
ng-mR@20: 31.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向语义多样性的原型学习以实现无偏场景图生成 | 论文 | HyperAI超神经