
摘要
本文提出了一种使用双分支神经网络学习图像和文本联合嵌入的方法。该网络包含多层线性投影,随后进行非线性变换。网络训练采用了大间隔目标函数,该函数结合了跨视图排序约束和受度量学习文献启发的视图内邻域结构保持约束。大量实验表明,我们的方法在图像到文本和文本到图像检索任务中显著提高了准确性。我们的方法在Flickr30K和MSCOCO图像-句子数据集上取得了新的最先进结果,并在Flickr30K Entities数据集上的短语定位新任务中展现出潜力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-flickr30k-1k-test | SPE | R@1: 29.7 R@10: 72.1 R@5: 60.1 |
| phrase-grounding-on-flickr30k-entities-test | DSPE | R@1: 43.89 R@10: 68.66 R@5: 64.46 |