4 个月前

细粒度场景图生成与数据传输

细粒度场景图生成与数据传输

摘要

场景图生成(Scene Graph Generation, SGG)旨在从图像中提取(主语,谓语,宾语)三元组。近年来,SGG领域取得了稳步进展,为高层次视觉和语言理解提供了有用的工具。然而,由于数据分布问题的存在,包括长尾分布和语义模糊性,当前的SGG模型预测往往倾向于几个常见的但信息量不足的谓语(例如,“在...上”,“在...处”),这限制了这些模型在下游任务中的实际应用。为了解决上述问题,我们提出了一种新颖的内部和外部数据传输(Internal and External Data Transfer, IETrans)方法,该方法可以以即插即用的方式应用,并扩展到具有1,807个谓语类别的大规模SGG。我们的IETrans通过自动创建一个增强的数据集来缓解数据分布问题,该数据集为所有谓语提供更加充分且连贯的注释。通过在增强数据集上进行训练,Neural Motif模型的宏观性能翻倍提升,同时保持了竞争力的微观性能。代码和数据已在https://github.com/waxnkw/IETrans-SGG.pytorch 公开发布。

代码仓库

rlqja1107/torch-st-sgg
pytorch
GitHub 中提及
waxnkw/ietrans-sgg.pytorch
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-graph-generation-on-visual-genomeIETrans
Recall@100: 27.2
Recall@50: 23.5
mean Recall @100: 18.0
unbiased-scene-graph-generation-on-visualIETrans (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
F@100: 44.1
mR@20: 28.9
ng-mR@20: 36.0
unbiased-scene-graph-generation-on-visualIETrans (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
F@100: 21.7
mR@20: 10.9
ng-mR@20: 13.4
unbiased-scene-graph-generation-on-visualIETrans (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
F@100: 26.0
mR@20: 17.5
ng-mR@20: 21.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
细粒度场景图生成与数据传输 | 论文 | HyperAI超神经