Martin WagnerBeat-Peter Müller-StichAnna KisilenkoDuc TranPatrick HegerLars MündermannDavid M LubotskyBenjamin MüllerTornike DavitashviliManuela CapekAnnika ReinkeTong YuArmine VardazaryanChinedu Innocent NwoyeNicolas PadoyXinyang LiuEung-Joo LeeConstantin DischHans MeineTong XiaFucang JiaSatoshi KondoWolfgang ReiterYueming JinYonghao LongMeirui JiangQi DouPheng Ann HengIsabell TwickKadir KirtacEnes HosgorJon Lindström BolmgrenMichael StenzelBjörn von SiemensHannes G. KenngottFelix NickelMoritz von FrankenbergFranziska Mathis-UllrichLena Maier-HeinStefanie SpeidelSebastian Bodenstedt

摘要
目的:手术流程与技能分析是下一代认知型手术辅助系统的关键技术。此类系统可通过情境感知的预警机制和半自主机器人辅助,提升手术安全性;或通过数据驱动的反馈机制,优化外科医生的培训。在单中心开放数据集上,已有研究报道手术阶段识别的平均精确度最高可达91%。本研究旨在探究手术阶段识别算法在多中心环境下的泛化能力,并扩展至更具挑战性的识别任务,如手术动作识别与手术技能评估。方法:为实现该目标,我们构建了一个包含来自三个外科中心共33例腹腔镜胆囊切除术视频的数据集,总手术时长为22小时。数据标注涵盖七个手术阶段(包含250次阶段转换)、四种手术动作的5514次出现、七类器械中21种器械的6980次出现,以及五个技能维度下的495次技能评分。该数据集被用于2019年内窥视觉挑战赛(Endoscopic Vision Challenge)中的“手术流程与技能分析”子挑战赛。共有12支团队提交了其基于机器学习的算法,用于阶段、动作、器械存在性及/或技能评估的识别任务。结果:在阶段识别任务中,F1分数介于23.9%至67.7%之间(n=9支团队);器械存在性检测的F1分数为38.5%至63.8%(n=8支团队);而动作识别的F1分数仅在21.8%至23.3%之间(n=5支团队)。在技能评估方面,平均绝对误差为0.78(n=1支团队)。结论:尽管手术流程与技能分析技术展现出支持手术团队的巨大潜力,但本研究通过多团队算法对比表明,该领域尚未完全解决。本研究提出的这一新型基准数据集,可为未来相关工作的可比性评估与验证提供有力支持。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| surgical-phase-recognition-on-heichole | CAMMA1 (challenge model) | F1: 68.8 |
| surgical-phase-recognition-on-heichole | HIKVision (challenge model) | F1: 65.4 |
| surgical-phase-recognition-on-heichole | CUHK (challenge model) | F1: 65 |