
摘要
Flickr30k 数据集已成为基于句子的图像描述的标准基准。本文介绍了 Flickr30k Entities,该数据集在原有的 158,000 条 Flickr30k 标注基础上增加了 244,000 条共指链(coreference chains),这些共指链将同一图像的不同标注中提到的相同实体进行链接,并将其与 276,000 个手动标注的边界框关联起来。此类标注对于自动图像描述和基于视觉的语言理解的持续进展至关重要。它们使我们能够定义一个新的基准,用于在图像中定位文本实体提及。我们为这一任务提供了一个强大的基线模型,该模型结合了图像-文本嵌入、常见物体检测器、颜色分类器以及偏向选择较大物体的特点。尽管我们的基线模型在准确性上与更复杂的最先进模型相当,但我们发现其优势难以直接转化为诸如图像-句子检索等任务的改进,从而突显了当前方法的局限性和进一步研究的必要性。
代码仓库
bryanplummer/flickr30k_entities
GitHub 中提及
zhanyang-nwpu/rsvg-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-flickr30k-1k-test | HGLMM FV | R@1: 24.7 R@10: 66.8 R@5: 53.4 |
| phrase-grounding-on-flickr30k-entities-test | CCA | R@1: 25.30 R@10: 59.66 |
| phrase-grounding-on-flickr30k-entities-test | CCA - Fast RCNN | R@1: 41.77 R@10: 70.77 R@5: 64.52 |
| phrase-grounding-on-flickr30k-entities-test | CCA - VGG19 | R@1: 30.83 R@10: 67.15 R@5: 58.01 |