3 个月前

DualVD:一种用于视觉对话中深度视觉理解的自适应双编码模型

DualVD:一种用于视觉对话中深度视觉理解的自适应双编码模型

摘要

与仅针对图像回答单一问题的视觉问答(Visual Question Answering, VQA)任务不同,视觉对话(Visual Dialogue)涉及一系列连续问题,这些问题涵盖广泛的视觉内容,可能涉及图像中的任意对象、对象间关系或语义层面。因此,视觉对话任务的核心挑战在于学习一种更为全面且富含语义信息的图像表征,该表征能够根据不同的问题动态地关注图像中的相关区域。在本研究中,我们提出了一种新颖的模型,从视觉与语义两个视角共同刻画图像。具体而言,视觉视角用于捕捉图像的外观级信息,包括物体及其相互关系;而语义视角则使智能体能够从整体图像到局部区域,理解高层次的视觉语义。此外,在上述多视角图像特征的基础上,我们进一步设计了一种特征选择框架,能够以细粒度的方式自适应地分层提取与问题相关的信息。所提出的模型在标准视觉对话数据集上取得了当前最优的性能表现。更重要的是,通过可视化门控(gate)值,我们能够判断在回答当前问题时,视觉模态或语义模态的贡献程度,从而为理解人类在视觉对话中的认知机制提供了新的洞见。

代码仓库

JXZe/DualVD
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-dialog-on-visdial-v09-valDualVD
MRR: 62.94
Mean Rank: 4.17
R@1: 48.64
R@10: 89.94
R@5: 80.89
visual-dialog-on-visual-dialog-v1-0-test-stdDualVD
MRR (x 100): 63.23
Mean: 4.11
NDCG (x 100): 56.32
R@1: 49.25
R@10: 89.7
R@5: 80.23

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DualVD:一种用于视觉对话中深度视觉理解的自适应双编码模型 | 论文 | HyperAI超神经