
摘要
本文介绍了FooDI-ML数据集。该数据集包含超过150万张唯一图像,以及超过950万条来自Glovo应用的商店名称、产品名称、描述信息和商品分类信息。所提供的数据涵盖欧洲、中东、非洲及拉丁美洲37个国家的食品、饮料和杂货类商品。数据集共包含33种语言,其中包括来自东欧和西亚国家的87万条语言样本,如乌克兰语和哈萨克语,这些语言在以往公开的视觉-语言数据集中长期处于代表性不足的状态。此外,数据集还包含西班牙语、英语等广泛使用的语言。为促进后续研究,我们还提供了两项任务的基准测试:文本-图像检索与条件图像生成。
代码仓库
glovo/foodi-ml-dataset
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-foodi-ml-global | ADAPT-I2T | A-R@1: 0.005 A-R@10: 0.05 A-R@5: 0.02 Re-R@1: 0.01 Re-R@10: 0.045 Re-R@5: 0.03 |
| image-retrieval-on-foodi-ml-spain | ADAPT-I2T | A-R@1: 0.93 A-R@10: 5.8 A-R@5: 3.33 Re-R@1: 0.73 Re-R@10: 5.67 Re-R@5: 2.93 |