8 个月前

摘要

食物分类是开发食品视觉任务的基础，并在计算营养学这一新兴领域中发挥着关键作用。由于食物的复杂性需要细粒度分类，近期的学术研究主要通过修改卷积神经网络（CNNs）和/或视觉变换器（ViTs）来进行食物类别分类。然而，为了学习细粒度特征，CNN主干需要额外的结构设计，而包含自注意力模块的ViT则增加了计算复杂度。近几个月来，一种新的序列状态空间（S4）模型通过选择机制和扫描（Scan, S6）计算，俗称Mamba，展示了优于Transformer架构的性能和计算效率。VMamba模型将Mamba机制应用于图像任务（如分类），目前在ImageNet数据集上建立了最先进的（SOTA）水平。在这项研究中，我们介绍了一个学术界低估的食物数据集CNFOOD-241，并首次将残差学习框架整合到VMamba模型中，以同时利用其原始架构设计中的全局和局部状态特征。研究结果表明，VMamba在细粒度和食物分类方面超越了当前的SOTA模型。所提出的Res-VMamba进一步将分类准确率提高到79.54%，且无需预训练权重。我们的发现阐明了所提出的方法在CNFOOD-241数据集上的食物识别SOTA性能方面建立了一个新的基准。代码可在GitHub上获取：https://github.com/ChiShengChen/ResVMamba。

源 PDF 查看代码