3 个月前

基于常识知识注入的表达性场景图生成用于视觉理解与推理

基于常识知识注入的表达性场景图生成用于视觉理解与推理

摘要

场景图生成旨在通过结构化建模图像中的物体及其相互关系,捕捉图像中的语义元素,这对于视觉理解与推理任务(如图像描述生成、视觉问答、多媒体事件处理、视觉叙事以及图像检索)至关重要。现有的场景图生成方法在支持高层视觉理解与推理方面,仍存在性能与表达能力有限的问题。这一挑战可通过引入关于场景图语义元素的常识知识(如相关事实与背景知识)得以缓解。本文提出将来自异构知识源的多样化常识知识注入场景图生成过程,该知识源整合了七个不同知识库中的常识信息,从而生成更具丰富性与表达力的场景图。通过利用对象节点的图嵌入,挖掘知识源中蕴含的结构模式,计算相似性度量以实现场景图的精炼与扩充。我们在基准数据集Visual Genome上进行了实验与对比分析,结果表明,所提出方法在不同K值下的召回率均优于现有最先进技术:当K = 20、50、100时,本方法的R@K分别为29.89、35.40、39.12,而对比方法分别为25.80、33.30、37.80。在下游图像生成任务中的定性结果进一步显示,基于常识知识构建的场景图能够生成更为逼真的图像。上述结果充分证明了将常识知识融入场景图生成过程,在提升其性能与表达能力方面具有显著有效性,为视觉理解与推理任务提供了有力支持。

基准测试

基准方法指标
scene-graph-generation-on-visual-genomeExpressiveSGG
R@100: 39.12

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于常识知识注入的表达性场景图生成用于视觉理解与推理 | 论文 | HyperAI超神经