
摘要
在过去十年中,深度卷积神经网络(Deep Convolutional Neural Networks)已被广泛应用于医学图像分割任务,并展现出良好的性能。然而,由于卷积架构固有的归纳偏置(inductive biases),其在捕捉图像中长距离依赖关系方面存在局限。近年来,基于Transformer的架构通过引入自注意力机制(self-attention mechanism),能够有效建模长距离依赖关系,并学习到更具表达力的特征表示。这一特性促使我们探索基于Transformer的解决方案,并研究其在医学图像分割任务中的可行性。然而,现有大多数面向视觉任务的Transformer架构需要大规模数据集才能有效训练。相比之下,医学影像数据集的样本数量相对较少,这使得直接将Transformer应用于医学图像分割面临训练困难的问题。为此,本文提出一种门控轴向注意力模型(Gated Axial-Attention),通过在自注意力模块中引入额外的控制机制,对现有架构进行扩展。此外,为提升模型在医学图像上的训练效率与性能,我们进一步提出一种局部-全局训练策略(Local-Global training strategy, LoGo):该策略分别在整张图像和图像块(patches)上进行操作,以协同学习全局与局部特征。所提出的医学Transformer模型(Medical Transformer, MedT)在三个不同的医学图像分割数据集上进行了评估,实验结果表明,其性能优于传统的卷积神经网络以及现有的其他Transformer基线模型。代码已开源:https://github.com/jeya-maria-jose/Medical-Transformer
代码仓库
jeya-maria-jose/Medical-Transformer
官方
pytorch
GitHub 中提及
dani-capellan/ptb_lungregionextractor
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| medical-image-segmentation-on-brain-us | U-Net | F1: 87.92 IoU: 80.14 |
| medical-image-segmentation-on-brain-us | MedT | F1: 88.84 IoU: 81.34 |
| medical-image-segmentation-on-brain-us | LoGo | F1: 88.54 IoU: 80.84 |
| medical-image-segmentation-on-glas | U-Net | Dice: 76.26 F1: 76.26 IoU: 63.03 |
| medical-image-segmentation-on-glas | MedT | Dice: 81.02 F1: 81.02 IoU: 69.61 |
| medical-image-segmentation-on-glas | LoGo | Dice: 79.68 F1: 79.68 IoU: 67.69 |
| medical-image-segmentation-on-monuseg | U-Net | F1: 76.83 IoU: 62.49 |
| medical-image-segmentation-on-monuseg | LoGo | F1: 79.56 IoU: 66.17 |
| medical-image-segmentation-on-monuseg | MedT | F1: 79.55 IoU: 66.17 |