4 个月前

使用组合模块网络建模指称表达中的关系

使用组合模块网络建模指称表达中的关系

摘要

人们经常通过实体与其他实体之间的关系来描述图像中的对象。例如,“坐在桌子下的黑猫”不仅指代一个“黑猫”实体,还涉及其与另一个“桌子”实体的关系。理解这些关系对于解释和定位此类自然语言表达至关重要。以往的大多数研究工作要么专注于将整个指代表达式整体地定位到一个区域,要么基于固定类别集对关系进行定位。本文则提出了一种模块化的深度架构,能够将指代表达式分解为其组成部分,识别输入表达式中提到的实体和关系,并将它们全部在场景中进行定位。我们称这种方法为组合模块网络(Compositional Modular Networks,简称CMNs):一种新颖的架构,可以端到端地学习语言分析和视觉推理。我们的方法围绕两种类型的神经模块构建,分别用于检查局部区域和区域间的成对交互作用。我们在多个指代表达数据集上评估了CMNs,在所有任务上均优于现有的最先进方法。

代码仓库

thilinicooray/Bottom-up-vqa
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-visual-genomeCMN
Percentage correct: 44.24
visual-question-answering-on-visual-genome-1CMN
Percentage correct: 28.52
visual-question-answering-on-visual7wCMN
Percentage correct: 72.53

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用组合模块网络建模指称表达中的关系 | 论文 | HyperAI超神经