3 个月前

大规模食物图像分割基准数据集

大规模食物图像分割基准数据集

摘要

食物图像分割是开发健康相关应用(如估算食物热量与营养成分)中一项关键且不可或缺的任务。现有的食物图像分割模型性能不佳,主要受制于两个原因:其一,缺乏高质量、具备细粒度食材标签和像素级定位掩码的食物图像数据集——现有数据集要么食材标签粗略,要么规模较小;其二,食物外观复杂,导致在图像中准确定位与识别食材极具挑战性,例如,同一图像中不同食材可能相互重叠,而同一食材在不同图像中可能呈现显著差异的视觉形态。为此,本文构建了一个全新的食物图像数据集 FoodSeg103(及其扩展版本 FoodSeg154),包含共计 9,490 张图像。所有图像均标注了 154 种食材类别,平均每张图像包含 6 个食材标签及对应的像素级掩码。此外,我们提出一种多模态预训练方法 ReLeM,该方法显式地为分割模型注入丰富的语义食物知识。在实验中,我们选取三种主流的语义分割方法(基于空洞卷积、基于特征金字塔、基于视觉 Transformer)作为基线模型,并在新构建的数据集上评估这些基线模型以及 ReLeM 的性能。我们相信,FoodSeg103(及其扩展版本 FoodSeg154)以及基于 ReLeM 训练的预训练模型,可作为细粒度食物图像理解领域的重要基准,推动后续研究的发展。所有数据集与方法均已公开,访问地址为:\url{https://xiongweiwu.github.io/foodseg103.html}。

代码仓库

LARC-CMU-SMU/FoodSeg103-Benchmark-v1
官方
pytorch
GitHub 中提及
XiongweiWu/FoodSeg103-Benchmark-v1
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-foodseg103CCNet (ReLeM-ResNet-50)
mIoU: 36.8
semantic-segmentation-on-foodseg103SeTR-Naive (ReLeM-ViT-16/B)
mIoU: 43.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模食物图像分割基准数据集 | 论文 | HyperAI超神经