4 个月前

基于图像重建的文本短语定位

基于图像重建的文本短语定位

摘要

在视觉内容中定位(即接地)任意的自由形式文本短语是一个具有许多人类-计算机交互和图像-文本引用解析应用的挑战性问题。由于很少有数据集提供短语的真实空间定位,因此从无监督或少量监督的数据中学习变得非常必要。我们提出了一种新颖的方法,该方法通过注意力机制重建给定的短语来学习接地,这种注意力机制可以是隐式的或直接优化的。在训练过程中,我们的方法首先使用递归网络语言模型对短语进行编码,然后学习关注相关的图像区域以重建输入短语。在测试时,评估正确的注意力,即接地效果。如果存在接地监督信息,则可以通过注意力机制上的损失函数直接应用。我们在Flickr 30k Entities和ReferItGame数据集上展示了我们方法的有效性,这些数据集包含不同程度的监督信息,从无监督到部分监督再到完全监督。我们的监督变体在这两个数据集上均大幅超越了现有最佳方法。

代码仓库

Seth-Park/MultimodalExplanations
caffe2
GitHub 中提及
akirafukui/vqa-mcb
caffe2
GitHub 中提及
divelab/vqa-text
caffe2
GitHub 中提及

基准测试

基准方法指标
phrase-grounding-on-flickr30k-entities-testGroundeR 100.0% annot.
R@1: 48.38

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于图像重建的文本短语定位 | 论文 | HyperAI超神经