8 个月前

计算机视觉

Nwoye Chinedu Innocent ; Gonzalez Cristians ; Yu Tong ; Mascagni Pietro ; Mutter Didier ; Marescaux Jacques ; Padoy Nicolas

摘要

手术活动识别是开发用于手术室的情境感知决策支持系统的重要组成部分。在本研究中，我们致力于细粒度活动的识别，这些活动被建模为动作三元组 <器械, 动词, 目标>，表示工具的活动。为此，我们引入了一个新的腹腔镜数据集 CholecT40，该数据集由公共数据集 Cholec80 中的 40 段视频组成，所有帧均使用 128 个三元组类别进行了标注。此外，我们提出了一种直接从视频数据中识别这些三元组的方法。该方法依赖于一个称为类激活引导（Class Activation Guide, CAG）的模块，该模块利用器械激活图来指导动词和目标的识别。为了对同一帧中的多个三元组进行建模，我们还提出了一种可训练的三维交互空间（3D Interaction Space），该空间捕捉了三元组各组件之间的关联。最后，通过在 CholecT40 数据集上进行多项消融实验和与基线方法的比较，我们展示了这些贡献的重要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Nwoye Chinedu Innocent ; Gonzalez Cristians ; Yu Tong ; Mascagni Pietro ; Mutter Didier ; Marescaux Jacques ; Padoy Nicolas

摘要

手术活动识别是开发用于手术室的情境感知决策支持系统的重要组成部分。在本研究中，我们致力于细粒度活动的识别，这些活动被建模为动作三元组 <器械, 动词, 目标>，表示工具的活动。为此，我们引入了一个新的腹腔镜数据集 CholecT40，该数据集由公共数据集 Cholec80 中的 40 段视频组成，所有帧均使用 128 个三元组类别进行了标注。此外，我们提出了一种直接从视频数据中识别这些三元组的方法。该方法依赖于一个称为类激活引导（Class Activation Guide, CAG）的模块，该模块利用器械激活图来指导动词和目标的识别。为了对同一帧中的多个三元组进行建模，我们还提出了一种可训练的三维交互空间（3D Interaction Space），该空间捕捉了三元组各组件之间的关联。最后，通过在 CholecT40 数据集上进行多项消融实验和与基线方法的比较，我们展示了这些贡献的重要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供