6 个月前

摘要

本文提出了一种概率框架，用于解决“视觉对话”（Visual Dialog）任务。该任务的求解需要对视觉模态、语言模态以及常识知识进行综合推理与理解。现有方法多采用多种多模态深度学习架构，通过融合视觉与语言表征来应对该任务。然而，我们认为，准确识别并分析该任务中不确定性来源至关重要。本文所提方法不仅能够估计不确定性，还能促进答案的多样化生成。该框架由三个核心模块构成：首先，一个概率表征模块，用于生成图像、问题及对话历史的联合概率表示；其次，一个潜在空间多样性生成模块，基于上述概率表示，生成多样化的候选答案潜在表征；最后，一个不确定性表征模块，用于根据不确定性评估选择最优答案，从而实现不确定性最小化。我们在多个层面对该模型进行了全面评估，包括详尽的消融实验、与当前最优方法的对比分析，以及对不确定性分布的可视化，这些分析有助于深入理解模型的工作机制。实验结果表明，基于所提出的概率框架，我们构建的视觉对话系统在性能上有所提升，同时具备更强的可解释性。

源 PDF