
摘要
在计算机辅助临床支持系统中,对内镜图像进行自动分析时,识别息肉仍是一项具有挑战性的任务。基于卷积神经网络(CNN)、Transformer及其融合架构的模型已在息肉分割任务中展现出良好的性能。然而,这些方法普遍存在局限性:要么仅关注息肉的局部外观特征,要么在解码过程中缺乏多层次特征以有效建模空间依赖关系。为此,本文提出一种新型网络结构——ColonFormer,以克服上述不足。ColonFormer采用编码器-解码器架构,能够在编码器和解码器两个分支中同时建模长距离语义信息。其中,编码器基于轻量级Transformer结构,用于在多尺度下捕捉全局语义关联;解码器则采用分层网络结构,旨在学习多层级特征,从而增强特征表达能力。此外,本文引入一个精细化模块,并设计了一种新型跳跃连接机制,用于在全局特征图中精炼息肉边界的分割结果,提升分割精度。在五个主流息肉分割基准数据集(包括Kvasir、CVC-Clinic DB、CVC-ColonDB、CVC-T和ETIS-Larib)上进行了大量实验。实验结果表明,所提出的ColonFormer在所有基准数据集上均优于现有的先进方法,展现出卓越的分割性能。
代码仓库
ducnt9907/ColonFormer
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| medical-image-segmentation-on-cvc-clinicdb | ColonFormer | mIoU: 0.903 mean Dice: 0.947 |
| medical-image-segmentation-on-kvasir-seg | ColonFormer | mIoU: 0.877 mean Dice: 0.927 |