Nicolás AyobiSantiago RodríguezAlejandra PérezIsabela HernándezNicolás AparicioEugénie DessevresSebastián PeñaJessica SantanderJuan Ignacio CaicedoNicolás FernándezPablo Arbeláez

摘要
本文提出了前列腺切除术全景多粒度手术场景理解数据集(GraSP),这是一个精心构建的基准,将手术场景理解建模为具有不同粒度层次的互补任务体系。我们的方法涵盖了长期任务(如手术阶段与步骤识别)和短期任务(如手术器械分割与原子视觉动作检测)。为充分挖掘该基准的潜力,我们提出了一种名为TAPIS(Transformers for Actions, Phases, Steps, and Instrument Segmentation)的通用模型架构,该架构结合全局视频特征提取器与基于器械分割模型生成的局部区域提议,以应对本基准所涵盖的多粒度挑战。通过在本数据集及其他替代基准上的大量实验,我们验证了TAPIS在各类任务中兼具卓越的泛化能力与领先性能。本研究为内窥视觉领域奠定了重要基础,为未来实现全景化手术场景理解提供了全新的研究框架。
代码仓库
bcv-uniandes/grasp
官方
pytorch
GitHub 中提及
bcv-uniandes/matis
官方
pytorch
GitHub 中提及
bcv-uniandes/tapir
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| surgical-phase-recognition-on-grasp | TAPIS | mAP: 76.72 |
| surgical-phase-recognition-on-misaw | TAPIS | mAP: 97.14 |