RameshSanat ; SrivastavVinkle ; AlapattDeepak ; YuTong ; MuraliAditya ; SestiniLuca ; NwoyeChinedu Innocent ; HamoudIdris ; SharmaSaurav ; FleurentinAntoine ; ExarchakisGeorgios ; KarargyrisAlexandros ; PadoyNicolas

摘要
近年来,随着基于深度神经网络的方法日益流行,手术计算机视觉领域取得了显著的突破。然而,训练此类模型的标准全监督方法需要大量的标注数据,这在临床领域尤其带来了高昂的成本。自监督学习(Self-Supervised Learning, SSL)方法在一般计算机视觉社区中逐渐受到关注,为解决这些标注成本问题提供了一种潜在的解决方案,使仅从未标注数据中学习有用的表示成为可能。尽管如此,SSL 方法在医学和手术等更为复杂且具有重要影响的领域的有效性仍然有限且未被充分探索。在这项工作中,我们通过研究四种最先进的自监督学习方法(MoCo v2、SimCLR、DINO 和 SwAV)来应对这一关键需求,探讨它们在手术计算机视觉中的应用。我们对这些方法在 Cholec80 数据集上的性能进行了详尽分析,该数据集涉及两个基础且受欢迎的手术情境理解任务:阶段识别和工具存在检测。我们首先考察了这些方法的参数化,然后分析了它们在半监督设置下对不同数量训练数据的行为表现。正如本工作所描述和实施的那样,这些方法成功应用于手术领域后,在阶段识别任务上比通用的自监督学习方法提高了高达 7.4%,在工具存在检测任务上提高了高达 20%;同时,在半监督阶段识别方面也达到了最高水平的方法性能提升,最高可达 14%。此外,在多个高度多样化的手术数据集上获得的结果表明了其强大的泛化能力。代码已发布在 https://github.com/CAMMA-public/SelfSupSurg。
代码仓库
camma-public/selfsupsurg
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-triplet-recognition-on-cholect50-1 | MoCo V2 Surg SSL - Rendezvous head | mAP: 35.7 |
| semantic-segmentation-on-endoscapes | MoCo V2 Surg SSL - DeepLabv3+ head | Mean F1: 73.2 |
| surgical-phase-recognition-on-cholec80-1 | MoCo V2 Surg SSL - TCN head | F1: 81.6 |
| surgical-phase-recognition-on-heichole | MoCo V2 Surg SSL - TCN head | F1: 64.7 |
| surgical-tool-detection-on-cholec80 | MoCo V2 Surg SSL - FCN head | mAP: 93.5 |
| surgical-tool-detection-on-heichole-benchmark | MoCo V2 Surg SSL - FCN head | mAP: 66.9 |