
摘要
基于Transformer的模型在计算机视觉任务中已广泛证明其在建模长距离依赖关系和捕捉全局表征方面的有效性。然而,这类模型通常过度依赖大尺度模式的特征,导致局部细节(如边界和小物体)的丢失,而这些细节在医学图像分割任务中至关重要。为缓解这一问题,本文提出一种名为DuAT(Dual-Aggregation Transformer Network)的双聚合Transformer网络,其核心在于两项创新设计:全局到局部空间聚合模块(Global-to-Local Spatial Aggregation, GLSA)与选择性边界聚合模块(Selective Boundary Aggregation, SBA)。GLSA模块能够同时聚合并表征全局与局部空间特征,分别有助于定位大尺寸和小尺寸目标。SBA模块则用于从低层特征中提取边界特征,并融合高层特征中的语义信息,从而更有效地保留边界细节并实现对目标的精准重校准。在六个基准数据集上的大量实验表明,所提出的模型在皮肤病变图像和结肠镜图像中息肉的分割任务上均优于当前最先进的方法。此外,该方法在小目标分割以及边界模糊等复杂场景下表现出更强的鲁棒性,显著优于现有技术。
代码仓库
Barrett-python/DuAT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| lesion-segmentation-on-isic-2018 | DuAT | Mean IoU: 0.867 mean Dice: 0.923 |
| medical-image-segmentation-on-2018-data | DuAT | Dice: 0.926 mIoU: 0.870 |
| medical-image-segmentation-on-cvc-clinicdb | DuAT | Average MAE: 0.006 mIoU: 0.906 mean Dice: 0.948 |
| medical-image-segmentation-on-cvc-colondb | DuAT | Average MAE: 0.026 mIoU: 0.737 mean Dice: 0.819 |
| medical-image-segmentation-on-etis | DuAT | Average MAE: 0.013 mIoU: 0.746 mean Dice: 0.822 |
| medical-image-segmentation-on-kvasir-seg | DuAT | Average MAE: 0.023 mIoU: 0.876 mean Dice: 0.924 |