
摘要
在数字病理学中,基于多实例学习(MIL)的全切片图像(WSI)分类面临显著的计算挑战。当前方法大多依赖于大量自监督学习(SSL)以获得满意的性能,但这通常需要漫长的训练周期和庞大的计算资源。与此同时,缺乏预训练会导致模型性能下降,原因在于自然图像与WSI之间存在显著的领域差异。为此,我们提出了一种名为Snuffy的新架构,这是一种基于稀疏Transformer的新型MIL池化方法,能够在有限预训练条件下有效缓解性能损失,并支持持续的少样本预训练,成为极具竞争力的替代方案。Snuffy的稀疏模式专为病理学数据设计,理论上被证明是迄今为止对稀疏Transformer而言具有最紧致概率尖锐界(tightest probabilistic sharp bound)的通用逼近器,且在最少层数下仍能保持优异性能。我们在CAMELYON16和TCGA肺癌数据集上验证了Snuffy的有效性,结果表明其在全切片图像及图像块级别的分类准确率均表现优异。代码已开源,地址为:https://github.com/jafarinia/snuffy。
代码仓库
jafarinia/snuffy
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multiple-instance-learning-on-camelyon16 | Snuffy (DINO Exhaustive) | ACC: 0.948 AUC: 0.987 Expected Calibration Error: 0.083 FROC: 0.675 Patch AUC: 0.957 |
| multiple-instance-learning-on-camelyon16 | Snuffy (MAE Adapter) | ACC: 0.900 AUC: 0.910 Expected Calibration Error: 0.078 FROC: 0.543 Patch AUC: 0.873 |
| multiple-instance-learning-on-camelyon16 | Snuffy (SimCLR Exhaustive) | ACC: 0.952 AUC: 0.970 Expected Calibration Error: 0.057 FROC: 0.622 Patch AUC: 0.980 |
| multiple-instance-learning-on-elephant | Snuffy | ACC: 0.923 AUC: 0.967 |
| multiple-instance-learning-on-musk-v1 | Snuffy | ACC: 0.961 AUC: 0.989 |
| multiple-instance-learning-on-musk-v2 | Snuffy | ACC: 0.789 AUC: 0.985 |
| multiple-instance-learning-on-tcga | Snuffy (SimCLR Exhaustive) | ACC: 0.947 AUC: 0.972 |