
摘要
结肠镜检查被广泛认为是早期发现结直肠癌(Colorectal Cancer, CRC)的金标准方法。图像分割在两项重要的临床应用中具有关键价值:病变检测与分类,能够有效提升诊断的准确性与鲁棒性。然而,人工对结肠镜图像中的息肉进行分割耗时费力,因此,利用深度学习(Deep Learning, DL)实现息肉分割的自动化已成为研究重点。尽管如此,基于深度学习的方法容易出现过拟合问题,导致模型难以泛化到由不同结肠镜设备采集的图像数据。近年来,基于Transformer的语义分割架构在性能和泛化能力方面均优于传统方法,但通常仅能生成输入图像尺寸 $h \times w$ 的四分之一分辨率的分割图(即 $\frac{h}{4} \times \frac{w}{4}$)。针对这一局限,本文提出一种新型全尺寸分割架构:该架构在主分支中利用Transformer强大的特征提取能力,捕获对分割任务至关重要的高层语义信息;同时,引入一个次级全卷积分支,以弥补Transformer在高分辨率输出方面的不足。最终,将两个分支提取的特征进行融合,实现 $h \times w$ 全尺寸分割图的精确预测。我们在Kvasir-SEG和CVC-ClinicDB两个公开数据集上验证了所提方法的先进性能,结果表明其在mDice、mIoU、mPrecision和mRecall等关键指标上均达到当前最优水平。此外,我们还分别在两个数据集上训练模型,并在另一个数据集上进行测试,进一步验证了该方法出色的跨数据集泛化能力。
代码仓库
yuwenlo/hardnet-dfus
pytorch
GitHub 中提及
ESandML/FCBFormer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| medical-image-segmentation-on-cvc-clinicdb | FCBFormer | mIoU: 0.9020 mean Dice: 0.9469 |
| medical-image-segmentation-on-kvasir-seg | FCBFormer | mIoU: 0.8903 mean Dice: 0.9385 |