3 个月前

GraghVQA:用于基于图的视觉问答的语言引导图神经网络

GraghVQA:用于基于图的视觉问答的语言引导图神经网络

摘要

图像远不止是物体或属性的简单集合,它们更代表着相互关联的物体之间错综复杂的语义关系。场景图(Scene Graph)作为一种结构化的图像图形化表示新范式应运而生。在场景图中,物体被表示为节点,而物体之间的成对关系则通过边进行连接。为支持基于场景图的问答任务,我们提出了 GraphVQA——一种基于语言引导的图神经网络框架,该框架能够将自然语言问题转化为图节点间的多轮消息传递过程,并完成相应推理与执行。我们系统地探索了 GraphVQA 框架的设计空间,并深入分析了不同设计选择之间的权衡关系。在 GQA 数据集上的实验结果表明,GraphVQA 相较于当前最先进的模型取得了显著提升,准确率达到了 94.78%,远超对比模型的 88.43%。

代码仓库

codexxxl/GraphVQA
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
graph-question-answering-on-gqaGraphVQA
Accuracy: 96.30

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GraghVQA:用于基于图的视觉问答的语言引导图神经网络 | 论文 | HyperAI超神经