4 个月前

视觉与结构化语言预训练在跨模态食品检索中的应用

视觉与结构化语言预训练在跨模态食品检索中的应用

摘要

视觉-语言预训练(VLP)和基础模型一直是实现通用基准测试最先进性能的首选方法。然而,对于更复杂的视觉-语言任务,如烹饪应用,这些强大的技术在处理结构化输入数据方面仍鲜有研究。在这项工作中,我们提出利用这些技术来解决基于结构化文本的计算烹饪任务。我们的策略被称为VLPCook,首先将现有的图像-文本对转换为图像和结构化文本对。这使得我们可以在适应了结果数据集结构化数据的VLP目标上预训练VLPCook模型,然后在下游计算烹饪任务上对其进行微调。在微调过程中,我们还增强了视觉编码器,利用预训练的基础模型(例如CLIP)提供局部和全局文本上下文。VLPCook在大规模Recipe1M数据集上的跨模态食品检索任务中显著超越了当前的最先进水平(Recall@1绝对提升+3.3)。我们在VLP上进行了进一步的实验以验证其重要性,特别是在Recipe1M+数据集上。最后,我们在其他任务(如食品识别)和其他包含结构化文本的领域(如医疗领域的ROCO数据集)上验证了该方法的泛化能力。代码可在此处获取:https://github.com/mshukor/VLPCook

代码仓库

mshukor/vlpcook
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-on-recipe1mVLPCook
Image-to-text R@1: 73.6
Text-to-image R@1: 74.7
cross-modal-retrieval-on-recipe1mVLPCook (R1M+)
Image-to-text R@1: 74.9
Text-to-image R@1: 75.6
cross-modal-retrieval-on-recipe1m-1VLPCook
Image-to-text R@1: 45.2
Text-to-image R@1: 47.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉与结构化语言预训练在跨模态食品检索中的应用 | 论文 | HyperAI超神经