3 个月前

SF-TMN:用于外科手术阶段识别的SlowFast时序建模网络

SF-TMN:用于外科手术阶段识别的SlowFast时序建模网络

摘要

自动手术阶段识别是支持基于视频评估(Video-Based Assessment, VBA)系统进行外科教学的关键技术之一。利用时间信息对于手术阶段识别至关重要,因此近年来的多种方法均通过提取帧级特征,实现对完整视频的时序建模。为提升时序建模能力,本文提出一种名为慢速-快速时序建模网络(SlowFast Temporal Modeling Network, SF-TMN)的新型架构,该网络不仅能够实现帧级的全视频时序建模,还可实现片段级的全视频时序建模。我们采用在目标数据集上预训练的特征提取网络,从视频帧中提取特征,作为SF-TMN的训练数据。SF-TMN中的“慢路径”(Slow Path)利用所有帧级特征进行帧级时序建模;“快路径”(Fast Path)则基于帧级特征聚合得到的片段级特征,进行片段级时序建模。所提出的框架在时序建模网络的选择上具有高度灵活性,本文探索了MS-TCN与ASFormer两种时序建模网络,并尝试了多种慢路径与快路径的组合策略。在Cholec80手术阶段识别任务上的实验表明,SF-TMN在所有评估指标上均达到了当前最优性能。其中,以ASFormer为骨干网络的SF-TMN在准确率上较当前最优的非端到端(Not End-to-End, TCN)方法提升2.6%,在Jaccard相似度上提升7.4%。此外,我们在50Salads、GTEA和Breakfast等多个动作分割数据集上也进行了评估,结果同样达到了当前最优水平。实验结果表明,通过引入时序精炼阶段,对帧级与片段级时间信息进行联合建模与优化,显著提升了手术阶段时序建模的性能,验证了多粒度时间信息融合的有效性。

基准测试

基准方法指标
action-segmentation-on-50-salads-1SF-TMN(ASFormer)
Acc: 89.8
Edit: 84.4
F1@10%: 89.1
F1@25%: 88.0
F1@50%: 82.9
action-segmentation-on-breakfast-1SF-TMN(ASFormer)
Acc: 77.0
Average F1: 71.6
Edit: 77.0
F1@10%: 78.7
F1@25%: 74.0
F1@50%: 62.2
action-segmentation-on-gtea-1SF-TMN(ASFormer)
Acc: 83.0
Edit: 88.9
F1@10%: 91.9
F1@25%: 90.7
F1@50%: 83.1
surgical-phase-recognition-on-cholec80-1SF-TMN(ASFormer)
Acc: 95.43

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SF-TMN:用于外科手术阶段识别的SlowFast时序建模网络 | 论文 | HyperAI超神经