6 个月前

摘要

基于视觉Transformer（Vision Transformers, ViTs）架构的模型在三维医学图像（3D Medical Image, MI）分割任务中代表了重大进展，其通过增强全局上下文理解能力，显著超越了传统的卷积神经网络（Convolutional Neural Networks, CNN）模型。尽管这一范式转变显著提升了三维分割性能，但当前最先进的架构通常需要极为庞大且复杂的模型结构，并依赖大规模计算资源进行训练与部署。此外，在医学影像中常见的数据集规模有限的背景下，过大的模型往往在模型泛化能力和收敛性方面面临挑战。为应对上述问题，并证明轻量化模型在三维医学图像分割领域具有重要的研究价值，本文提出SegFormer3D——一种分层式Transformer架构，能够跨多尺度体素特征计算注意力机制。同时，SegFormer3D摒弃了复杂的解码器结构，采用全MLP（多层感知机）解码器，有效融合局部与全局注意力特征，生成高精度的分割掩码。所提出的轻量级Transformer在紧凑的模型设计中保持了远超其规模的性能表现。SegFormer3D通过将参数量减少33倍、计算量（GFLOPS）降低13倍，显著降低了对硬件资源的需求，从而推动了深度学习在三维医学图像分割中的普惠化应用。我们在三个广泛使用的基准数据集（Synapse、BRaTs和ACDC）上对SegFormer3D进行了全面评估，结果表明其性能与当前最先进（State-of-the-Art, SOTA）模型相当，具备良好的竞争力。代码开源地址：https://github.com/OSUPCVLab/SegFormer3D.git

源 PDF