3 个月前

基于分层Transformer与自监督学习的跨模态食谱检索重构

基于分层Transformer与自监督学习的跨模态食谱检索重构

摘要

跨模态食谱检索近年来受到广泛关注,这主要源于食物在人们日常生活中的重要性,以及大量数字化食谱和食品图像数据的可获取性,为机器学习模型的训练提供了丰富资源。在本研究中,我们重新审视了现有的跨模态食谱检索方法,并提出了一种基于成熟且高性能的文本与图像编码器的简化端到端模型。我们引入了一种分层食谱Transformer,能够有选择性地编码食谱的各个组成部分(如标题、食材和步骤)。此外,我们设计了一种基于食谱各组成部分配对的自监督损失函数,该函数能够捕捉食谱内部的语义关联,支持使用图像-食谱对以及仅含食谱的样本进行训练。我们通过全面的分析与消融实验验证了模型设计的有效性。实验结果表明,所提出的方法在Recipe1M数据集上的跨模态食谱检索任务中达到了当前最优性能。相关代码与模型已公开发布。

代码仓库

基准测试

基准方法指标
cross-modal-retrieval-on-recipe1mH-T
Image-to-text R@1: 60.0
Text-to-image R@1: 60.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于分层Transformer与自监督学习的跨模态食谱检索重构 | 论文 | HyperAI超神经