3 个月前

多视角注意力网络用于视觉对话

多视角注意力网络用于视觉对话

摘要

视觉对话(Visual Dialog)是一项具有挑战性的跨模态任务,要求模型基于给定图像对一系列具有视觉语境的问答进行连贯回应。为有效解决该任务,模型需具备对多种模态输入(如问题、对话历史和图像)的高层次理解能力。具体而言,智能体必须能够:1)准确识别问题的语义意图;2)在异构模态输入之间对齐与问题相关联的文本与视觉内容。本文提出多视角注意力网络(Multi-View Attention Network, MVAN),该模型基于注意力机制,从多个视角对异构输入进行建模。MVAN通过两个互补的模块——主题聚合(Topic Aggregation)与上下文匹配(Context Matching),有效从对话历史中捕捉与问题相关的信息,并通过一系列顺序对齐过程(即模态对齐,Modality Alignment)构建多模态表示。在VisDial v1.0数据集上的实验结果表明,所提出的模型在所有评估指标上均优于先前的最先进方法,验证了其有效性。

代码仓库

taesunwhang/MVAN-VisDial
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-dialog-on-visdial-v09-valMVAN
MRR: 0.6765
Mean Rank: 3.73
R@1: 54.65
R@10: 91.47
R@5: 83.85
visual-dialog-on-visual-dialog-v1-0-test-stdMVAN
MRR (x 100): 64.84
Mean: 3.97
NDCG (x 100): 59.37
R@1: 51.45
R@10: 90.65
R@5: 81.12

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多视角注意力网络用于视觉对话 | 论文 | HyperAI超神经