8 个月前

计算机视觉

计算机视觉

Anna Rohrbach; Marcus Rohrbach; Ronghang Hu; Trevor Darrell; Bernt Schiele

摘要

在视觉内容中定位（即接地）任意的自由形式文本短语是一个具有许多人类-计算机交互和图像-文本引用解析应用的挑战性问题。由于很少有数据集提供短语的真实空间定位，因此从无监督或少量监督的数据中学习变得非常必要。我们提出了一种新颖的方法，该方法通过注意力机制重建给定的短语来学习接地，这种注意力机制可以是隐式的或直接优化的。在训练过程中，我们的方法首先使用递归网络语言模型对短语进行编码，然后学习关注相关的图像区域以重建输入短语。在测试时，评估正确的注意力，即接地效果。如果存在接地监督信息，则可以通过注意力机制上的损失函数直接应用。我们在Flickr 30k Entities和ReferItGame数据集上展示了我们方法的有效性，这些数据集包含不同程度的监督信息，从无监督到部分监督再到完全监督。我们的监督变体在这两个数据集上均大幅超越了现有最佳方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Anna Rohrbach; Marcus Rohrbach; Ronghang Hu; Trevor Darrell; Bernt Schiele

摘要

在视觉内容中定位（即接地）任意的自由形式文本短语是一个具有许多人类-计算机交互和图像-文本引用解析应用的挑战性问题。由于很少有数据集提供短语的真实空间定位，因此从无监督或少量监督的数据中学习变得非常必要。我们提出了一种新颖的方法，该方法通过注意力机制重建给定的短语来学习接地，这种注意力机制可以是隐式的或直接优化的。在训练过程中，我们的方法首先使用递归网络语言模型对短语进行编码，然后学习关注相关的图像区域以重建输入短语。在测试时，评估正确的注意力，即接地效果。如果存在接地监督信息，则可以通过注意力机制上的损失函数直接应用。我们在Flickr 30k Entities和ReferItGame数据集上展示了我们方法的有效性，这些数据集包含不同程度的监督信息，从无监督到部分监督再到完全监督。我们的监督变体在这两个数据集上均大幅超越了现有最佳方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供