4 个月前

面向整体的手术场景理解

面向整体的手术场景理解

摘要

大多数用于研究外科手术干预的基准测试都集中在特定的挑战上,而不是充分利用不同任务之间的内在互补性。在本工作中,我们提出了一种面向整体的外科手术场景理解的新实验框架。首先,我们介绍了阶段、步骤、器械和原子视觉动作识别(PSI-AVA)数据集。PSI-AVA 包含了机器人辅助根治性前列腺切除术视频中长期(阶段和步骤识别)和短期推理(器械检测和新型原子动作识别)的注释。其次,我们提出了用于动作、阶段、器械和步骤识别的变压器模型(TAPIR),作为外科手术场景理解的强大基线方法。TAPIR 利用了我们数据集的多层次注释,并从器械检测任务中学到的表示中受益,从而提高了其分类能力。我们在 PSI-AVA 数据集和其他公开可用数据库中的实验结果表明,我们的框架适合推动未来关于整体外科手术场景理解的研究。

代码仓库

bcv-uniandes/tapir
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
surgical-phase-recognition-on-misawTAPIR
mAP: 94.24

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向整体的手术场景理解 | 论文 | HyperAI超神经