4 个月前

Res-VMamba:基于选择性状态空间模型和深度残差学习的细粒度食品分类视觉识别

Res-VMamba:基于选择性状态空间模型和深度残差学习的细粒度食品分类视觉识别

摘要

食物分类是开发食品视觉任务的基础,并在计算营养学这一新兴领域中发挥着关键作用。由于食物的复杂性需要细粒度分类,近期的学术研究主要通过修改卷积神经网络(CNNs)和/或视觉变换器(ViTs)来进行食物类别分类。然而,为了学习细粒度特征,CNN主干需要额外的结构设计,而包含自注意力模块的ViT则增加了计算复杂度。近几个月来,一种新的序列状态空间(S4)模型通过选择机制和扫描(Scan, S6)计算,俗称Mamba,展示了优于Transformer架构的性能和计算效率。VMamba模型将Mamba机制应用于图像任务(如分类),目前在ImageNet数据集上建立了最先进的(SOTA)水平。在这项研究中,我们介绍了一个学术界低估的食物数据集CNFOOD-241,并首次将残差学习框架整合到VMamba模型中,以同时利用其原始架构设计中的全局和局部状态特征。研究结果表明,VMamba在细粒度和食物分类方面超越了当前的SOTA模型。所提出的Res-VMamba进一步将分类准确率提高到79.54%,且无需预训练权重。我们的发现阐明了所提出的方法在CNFOOD-241数据集上的食物识别SOTA性能方面建立了一个新的基准。代码可在GitHub上获取:https://github.com/ChiShengChen/ResVMamba。

代码仓库

chishengchen/resvmamba
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
fine-grained-image-recognition-on-cnfood-241Res-VMamba-S
Top-1 accuracy: 79.54
fine-grained-image-recognition-on-cnfood-241VMamba-S
Top-1 accuracy: 79.17

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Res-VMamba:基于选择性状态空间模型和深度残差学习的细粒度食品分类视觉识别 | 论文 | HyperAI超神经