4 个月前

Flickr30k 实体:收集区域到短语的对应关系以构建更丰富的图像到句子模型

Flickr30k 实体:收集区域到短语的对应关系以构建更丰富的图像到句子模型

摘要

Flickr30k 数据集已成为基于句子的图像描述的标准基准。本文介绍了 Flickr30k Entities,该数据集在原有的 158,000 条 Flickr30k 标注基础上增加了 244,000 条共指链(coreference chains),这些共指链将同一图像的不同标注中提到的相同实体进行链接,并将其与 276,000 个手动标注的边界框关联起来。此类标注对于自动图像描述和基于视觉的语言理解的持续进展至关重要。它们使我们能够定义一个新的基准,用于在图像中定位文本实体提及。我们为这一任务提供了一个强大的基线模型,该模型结合了图像-文本嵌入、常见物体检测器、颜色分类器以及偏向选择较大物体的特点。尽管我们的基线模型在准确性上与更复杂的最先进模型相当,但我们发现其优势难以直接转化为诸如图像-句子检索等任务的改进,从而突显了当前方法的局限性和进一步研究的必要性。

代码仓库

zhanyang-nwpu/rsvg-pytorch
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-flickr30k-1k-testHGLMM FV
R@1: 24.7
R@10: 66.8
R@5: 53.4
phrase-grounding-on-flickr30k-entities-testCCA
R@1: 25.30
R@10: 59.66
phrase-grounding-on-flickr30k-entities-testCCA - Fast RCNN
R@1: 41.77
R@10: 70.77
R@5: 64.52
phrase-grounding-on-flickr30k-entities-testCCA - VGG19
R@1: 30.83
R@10: 67.15
R@5: 58.01

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Flickr30k 实体:收集区域到短语的对应关系以构建更丰富的图像到句子模型 | 论文 | HyperAI超神经