3 个月前

用于视觉对话的迭代上下文感知图推理

用于视觉对话的迭代上下文感知图推理

摘要

视觉对话是一项具有挑战性的任务,要求理解隐含视觉与文本上下文之间的语义依赖关系。该任务可被建模为在上下文稀疏且图结构未知(即关系描述符未知)的图模型中进行关系推理,而如何建模潜在的上下文感知关系推理机制尤为关键。为此,我们提出一种新型的上下文感知图(Context-Aware Graph, CAG)神经网络。该图中每个节点对应一个联合语义特征,融合了基于物体的(视觉)上下文表示与基于历史的(文本)上下文表示。图结构(即对话中的关系)通过一种自适应的 top-$K$ 消息传递机制进行迭代更新。具体而言,在每一轮消息传递过程中,每个节点仅选择最相关的 $K$ 个邻居节点,并仅接收来自这些节点的消息。在完成更新后,我们对所有节点施加图注意力机制,以获得最终的图嵌入并推断答案。在CAG中,每个节点在图中具有动态关系(即不同的相关 $K$ 个邻居节点),且仅最相关的节点对上下文感知的关系推理过程产生贡献。在VisDial v0.9和v1.0数据集上的实验结果表明,CAG在性能上优于现有对比方法。可视化结果进一步验证了该方法的可解释性。

代码仓库

wh0330/CAG_VisDial
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-dialog-on-visdial-v09-valCAG
MRR: 0.6756
Mean Rank: 3.75
R@1: 54.64
R@10: 91.48
R@5: 83.72
visual-dialog-on-visual-dialog-v1-0-test-stdCAG
MRR (x 100): 63.49
Mean: 4.11
NDCG (x 100): 56.64
R@1: 49.85
R@10: 90.15
R@5: 80.63

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视觉对话的迭代上下文感知图推理 | 论文 | HyperAI超神经