3 个月前

基于概率框架的视觉对话求解

基于概率框架的视觉对话求解

摘要

本文提出了一种概率框架,用于解决“视觉对话”(Visual Dialog)任务。该任务的求解需要对视觉模态、语言模态以及常识知识进行综合推理与理解。现有方法多采用多种多模态深度学习架构,通过融合视觉与语言表征来应对该任务。然而,我们认为,准确识别并分析该任务中不确定性来源至关重要。本文所提方法不仅能够估计不确定性,还能促进答案的多样化生成。该框架由三个核心模块构成:首先,一个概率表征模块,用于生成图像、问题及对话历史的联合概率表示;其次,一个潜在空间多样性生成模块,基于上述概率表示,生成多样化的候选答案潜在表征;最后,一个不确定性表征模块,用于根据不确定性评估选择最优答案,从而实现不确定性最小化。我们在多个层面对该模型进行了全面评估,包括详尽的消融实验、与当前最优方法的对比分析,以及对不确定性分布的可视化,这些分析有助于深入理解模型的工作机制。实验结果表明,基于所提出的概率框架,我们构建的视觉对话系统在性能上有所提升,同时具备更强的可解释性。

基准测试

基准方法指标
common-sense-reasoning-on-visual-dialog-v09PDUN
1 in 10 R@5: 81.0
Recall@10: 90.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于概率框架的视觉对话求解 | 论文 | HyperAI超神经