7 个月前

Zhou Yu Jun Yu Yuhao Cui Dacheng Tao Qi Tian

摘要

视觉问答（VQA）需要对图像的视觉内容和问题的文本内容进行细致且同步的理解。因此，设计一种有效的“共注意力”模型，以关联问题中的关键词与图像中的关键对象，对于提升VQA性能至关重要。迄今为止，大多数成功的共注意力学习尝试都是通过使用浅层模型实现的，而深层共注意力模型相较于其浅层对应模型并未显示出显著改进。在本文中，我们提出了一种深度模块化共注意力网络（MCAN），该网络由多个模块化共注意力（MCA）层按深度级联组成。每个MCA层利用两个基本注意力单元的模块化组合，建模问题和图像的自注意力以及图像的引导注意力。我们对MCAN在基准VQA-v2数据集上进行了定量和定性的评估，并进行了广泛的消融研究以探讨MCAN有效性的原因。实验结果表明，MCAN显著优于之前的最先进方法。我们的最佳单一模型在测试开发集上的总体准确率为70.63%。代码可在https://github.com/MILVLG/mcan-vqa 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

Zhou Yu Jun Yu Yuhao Cui Dacheng Tao Qi Tian

摘要

视觉问答（VQA）需要对图像的视觉内容和问题的文本内容进行细致且同步的理解。因此，设计一种有效的“共注意力”模型，以关联问题中的关键词与图像中的关键对象，对于提升VQA性能至关重要。迄今为止，大多数成功的共注意力学习尝试都是通过使用浅层模型实现的，而深层共注意力模型相较于其浅层对应模型并未显示出显著改进。在本文中，我们提出了一种深度模块化共注意力网络（MCAN），该网络由多个模块化共注意力（MCA）层按深度级联组成。每个MCA层利用两个基本注意力单元的模块化组合，建模问题和图像的自注意力以及图像的引导注意力。我们对MCAN在基准VQA-v2数据集上进行了定量和定性的评估，并进行了广泛的消融研究以探讨MCAN有效性的原因。实验结果表明，MCAN显著优于之前的最先进方法。我们的最佳单一模型在测试开发集上的总体准确率为70.63%。代码可在https://github.com/MILVLG/mcan-vqa 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供