4 个月前

基于结构和部分观察的视觉对话推理

基于结构和部分观察的视觉对话推理

摘要

我们提出了一种新颖的模型来解决具有复杂对话结构的视觉对话任务。为了基于当前问题和对话历史获得合理的答案,对话实体之间的潜在语义依赖关系至关重要。在本文中,我们将这一任务明确形式化为部分观测节点和未知图结构(对话中的关系)下的图模型推理。给定的对话实体被视为观测节点,而对给定问题的答案则由一个缺失值的节点表示。我们首先引入了一种期望最大化算法来推断潜在的对话结构和缺失节点值(所需答案)。在此基础上,我们进一步提出了一种可微分的图神经网络(GNN)解决方案,以近似这一过程。实验结果表明,在VisDial和VisDial-Q数据集上,我们的模型优于比较方法。此外还观察到,我们的方法可以推断出潜在的对话结构,从而提高对话推理的效果。

代码仓库

zilongzheng/visdial-gnn
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-dialog-on-visdial-v09-valGNN
MRR: 0.6285
Mean Rank: 4.57
R@1: 48.95
R@10: 88.36
R@5: 79.65
visual-dialog-on-visual-dialog-v1-0-test-stdGNN
MRR (x 100): 61.37
Mean: 4.57
NDCG (x 100): 52.82
R@1: 47.33
R@10: 87.83
R@5: 77.98

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于结构和部分观察的视觉对话推理 | 论文 | HyperAI超神经