
摘要
视觉对话是一项具有挑战性的任务,要求理解隐含视觉与文本上下文之间的语义依赖关系。该任务可被建模为在上下文稀疏且图结构未知(即关系描述符未知)的图模型中进行关系推理,而如何建模潜在的上下文感知关系推理机制尤为关键。为此,我们提出一种新型的上下文感知图(Context-Aware Graph, CAG)神经网络。该图中每个节点对应一个联合语义特征,融合了基于物体的(视觉)上下文表示与基于历史的(文本)上下文表示。图结构(即对话中的关系)通过一种自适应的 top-$K$ 消息传递机制进行迭代更新。具体而言,在每一轮消息传递过程中,每个节点仅选择最相关的 $K$ 个邻居节点,并仅接收来自这些节点的消息。在完成更新后,我们对所有节点施加图注意力机制,以获得最终的图嵌入并推断答案。在CAG中,每个节点在图中具有动态关系(即不同的相关 $K$ 个邻居节点),且仅最相关的节点对上下文感知的关系推理过程产生贡献。在VisDial v0.9和v1.0数据集上的实验结果表明,CAG在性能上优于现有对比方法。可视化结果进一步验证了该方法的可解释性。
代码仓库
wh0330/CAG_VisDial
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-dialog-on-visdial-v09-val | CAG | MRR: 0.6756 Mean Rank: 3.75 R@1: 54.64 R@10: 91.48 R@5: 83.72 |
| visual-dialog-on-visual-dialog-v1-0-test-std | CAG | MRR (x 100): 63.49 Mean: 4.11 NDCG (x 100): 56.64 R@1: 49.85 R@10: 90.15 R@5: 80.63 |