
摘要
在视觉内容中定位(即接地)任意的自由形式文本短语是一个具有许多人类-计算机交互和图像-文本引用解析应用的挑战性问题。由于很少有数据集提供短语的真实空间定位,因此从无监督或少量监督的数据中学习变得非常必要。我们提出了一种新颖的方法,该方法通过注意力机制重建给定的短语来学习接地,这种注意力机制可以是隐式的或直接优化的。在训练过程中,我们的方法首先使用递归网络语言模型对短语进行编码,然后学习关注相关的图像区域以重建输入短语。在测试时,评估正确的注意力,即接地效果。如果存在接地监督信息,则可以通过注意力机制上的损失函数直接应用。我们在Flickr 30k Entities和ReferItGame数据集上展示了我们方法的有效性,这些数据集包含不同程度的监督信息,从无监督到部分监督再到完全监督。我们的监督变体在这两个数据集上均大幅超越了现有最佳方法。
代码仓库
Seth-Park/MultimodalExplanations
caffe2
GitHub 中提及
akirafukui/vqa-mcb
caffe2
GitHub 中提及
divelab/vqa-text
caffe2
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| phrase-grounding-on-flickr30k-entities-test | GroundeR 100.0% annot. | R@1: 48.38 |