3 个月前

像素级识别用于整体手术场景理解

像素级识别用于整体手术场景理解

摘要

本文提出了前列腺切除术全景多粒度手术场景理解数据集(GraSP),这是一个精心构建的基准,将手术场景理解建模为具有不同粒度层次的互补任务体系。我们的方法涵盖了长期任务(如手术阶段与步骤识别)和短期任务(如手术器械分割与原子视觉动作检测)。为充分挖掘该基准的潜力,我们提出了一种名为TAPIS(Transformers for Actions, Phases, Steps, and Instrument Segmentation)的通用模型架构,该架构结合全局视频特征提取器与基于器械分割模型生成的局部区域提议,以应对本基准所涵盖的多粒度挑战。通过在本数据集及其他替代基准上的大量实验,我们验证了TAPIS在各类任务中兼具卓越的泛化能力与领先性能。本研究为内窥视觉领域奠定了重要基础,为未来实现全景化手术场景理解提供了全新的研究框架。

代码仓库

bcv-uniandes/grasp
官方
pytorch
GitHub 中提及
bcv-uniandes/matis
官方
pytorch
GitHub 中提及
bcv-uniandes/tapir
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
surgical-phase-recognition-on-graspTAPIS
mAP: 76.72
surgical-phase-recognition-on-misawTAPIS
mAP: 97.14

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
像素级识别用于整体手术场景理解 | 论文 | HyperAI超神经