4 个月前

基于扩散模型的手术三元组识别

基于扩散模型的手术三元组识别

摘要

手术三元组识别是实现下一代情境感知手术室的关键构建模块。其目标是在手术视频帧中识别出器械、动词和目标的组合。在本文中,我们提出了一种新的生成框架——DiffTriplet,该框架利用扩散模型通过迭代去噪来预测手术三元组。为了应对三元组关联的挑战,我们在扩散框架中提出了两种独特的设计,即关联学习和关联引导。在训练过程中,我们优化了三元组及其各个组件的联合空间模型,以捕捉它们之间的依赖关系。在推理阶段,我们将关联约束整合到迭代去噪过程的每次更新中,利用各个组件的信息来细化三元组预测。在CholecT45和CholecT50数据集上的实验表明,所提出的方法在手术三元组识别方面取得了新的最先进性能。我们的代码将对外发布。

基准测试

基准方法指标
action-triplet-recognition-on-cholect45-crossDiffTriplet
mAP: 40.2±1.9
action-triplet-recognition-on-cholect50-cross-1DiffTriplet
mAP: 40.3±2.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于扩散模型的手术三元组识别 | 论文 | HyperAI超神经