7 个月前

计算机视觉

计算机视觉

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

摘要

视觉对话（VisDial）是一项要求人工智能代理根据图像回答一系列问题的任务。与视觉问答（VQA）不同，这一系列问题应当能够从对话历史中捕捉时间上下文，并利用基于图像的信息。一个被称为视觉指代消解的问题涉及这些挑战，需要代理解决给定问题中的模糊指代，并在给定图像中找到相应的指代对象。本文提出了一种用于视觉指代消解的双注意力网络（DAN）。DAN由两种类型的注意力网络组成，即REFER和FIND。具体而言，REFER模块通过采用自注意力机制学习给定问题与对话历史之间的潜在关系。FIND模块以图像特征和指代感知表示（即REFER模块的输出）作为输入，并通过自下而上的注意力机制执行视觉定位。我们在VisDial v1.0和v0.9数据集上对模型进行了定性和定量评估，结果表明DAN显著优于之前的最先进模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

摘要

视觉对话（VisDial）是一项要求人工智能代理根据图像回答一系列问题的任务。与视觉问答（VQA）不同，这一系列问题应当能够从对话历史中捕捉时间上下文，并利用基于图像的信息。一个被称为视觉指代消解的问题涉及这些挑战，需要代理解决给定问题中的模糊指代，并在给定图像中找到相应的指代对象。本文提出了一种用于视觉指代消解的双注意力网络（DAN）。DAN由两种类型的注意力网络组成，即REFER和FIND。具体而言，REFER模块通过采用自注意力机制学习给定问题与对话历史之间的潜在关系。FIND模块以图像特征和指代感知表示（即REFER模块的输出）作为输入，并通过自下而上的注意力机制执行视觉定位。我们在VisDial v1.0和v0.9数据集上对模型进行了定性和定量评估，结果表明DAN显著优于之前的最先进模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供