4 个月前

从偏差训练中生成无偏场景图

从偏差训练中生成无偏场景图

摘要

当今的场景图生成(Scene Graph Generation, SGG)任务仍然远未达到实用水平,主要原因是严重的训练偏差,例如将多样化的“人在沙滩上行走/坐下/躺下”简化为“人在沙滩上”。鉴于这种SGG,下游任务如视觉问答(Visual Question Answering, VQA)几乎无法推断出比单纯的对象集合更好的场景结构。然而,在SGG中消除偏差并非易事,因为传统的去偏差方法无法区分有益偏差和有害偏差,例如有益的情境先验(如“人读书”而非“吃东西”)和有害的长尾偏差(如“靠近”占据主导地位而忽视了“在……后面/前面”)。本文提出了一种基于因果推理而非传统似然性的新型SGG框架。我们首先为SGG构建了一个因果图,并使用该图进行传统的有偏训练。然后,我们建议从训练后的图中提取反事实因果关系以推断有害偏差的影响,这些影响需要被移除。具体而言,我们使用总直接效应(Total Direct Effect, TDE)作为最终的无偏谓词得分。需要注意的是,我们的框架对任何SGG模型都是通用的,因此可以在寻求无偏预测的社区中广泛应用。通过在SGG基准数据集Visual Genome以及几种主流模型上使用我们提出的场景图诊断工具包,我们观察到与之前最先进的方法相比有了显著改进。

代码仓库

jaleedkhan/jSGG
pytorch
GitHub 中提及
ihaeyong/unbiased-sgg
pytorch
GitHub 中提及
Karim-53/SGG
pytorch
GitHub 中提及
KaihuaTang/Scene-Graph-Benchmark.pytorch
官方
pytorch
GitHub 中提及
zacharie12/zacharie
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-graph-generation-on-visual-genomeCausal-TDE
Recall@50: 31.93
mean Recall @20: 6.9
unbiased-scene-graph-generation-on-visualTDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
F@100: 19.9
mR@20: 9.9
ng-mR@20: 10.7
unbiased-scene-graph-generation-on-visualTDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
F@100: 18.6
mR@20: 11.2
ng-mR@20: 12.4
unbiased-scene-graph-generation-on-visualTDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
F@100: 13.2
mR@20: 9.7
ng-mR@20: 7.4
unbiased-scene-graph-generation-on-visualTDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
F@100: 15.1
mR@20: 6.8
ng-mR@20: 7.8
unbiased-scene-graph-generation-on-visualTDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
F@100: 36.9
mR@20: 19.2
ng-mR@20: 20.9
unbiased-scene-graph-generation-on-visualTDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
F@100: 37.2
mR@20: 17.4
ng-mR@20: 18.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从偏差训练中生成无偏场景图 | 论文 | HyperAI超神经