4 个月前

双注意力网络在多模态推理与匹配中的应用

双注意力网络在多模态推理与匹配中的应用

摘要

我们提出了一种双注意力网络(Dual Attention Networks, DANs),该网络通过联合利用视觉和文本注意力机制来捕捉视觉与语言之间的细粒度交互。DANs 通过多个步骤关注图像中的特定区域和文本中的特定词汇,从而从这两种模态中收集关键信息。基于这一框架,我们分别引入了两种类型的 DANs,用于多模态推理和匹配。推理模型允许视觉和文本注意力在协作推断过程中相互引导,这对于诸如视觉问答(Visual Question Answering, VQA)等任务非常有用。此外,匹配模型利用这两种注意力机制,通过聚焦于图像和句子的共有语义来估计它们之间的相似度。我们的大量实验验证了 DANs 在结合视觉与语言方面的有效性,在 VQA 和图像-文本匹配的公开基准测试中达到了最先进的性能。

基准测试

基准方法指标
image-retrieval-on-flickr30k-1k-testDAN
R@1: 39.4
R@10: 79.1
R@5: 69.2
visual-question-answering-on-vqa-v1-test-devDAN (ResNet)
Accuracy: 64.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供