ÖzsoyEgePellegriniChantalCzempielTobiasTristramFelixYuanKunBani-HarouniDavidEckUlrichBusamBenjaminKeicherMatthiasNavabNassir

摘要
手术室(Operating Rooms, ORs)是高度复杂、高风险的环境,需要精确理解医疗人员、器械与设备之间的交互关系,以提升手术辅助能力、情境感知水平以及患者安全。当前的公开数据集在规模、真实性和多模态特性方面均存在明显不足,难以全面反映手术室场景的复杂性,从而制约了手术室建模技术的发展。为此,我们提出了MM-OR——首个真实且大规模的多模态时空手术室数据集,也是首个支持多模态场景图生成的数据集。MM-OR全面捕捉了手术室场景,包含RGB-D图像、细节视图、音频、语音转录文本、机器人日志及追踪数据,并配有全景分割标注、语义场景图以及下游任务标签。此外,我们提出了MM2SG,这是首个用于场景图生成的多模态大规模视觉-语言模型。通过大量实验,我们验证了该模型能够有效融合多模态输入信息。MM-OR与MM2SG共同构建了手术室整体理解的新基准,为复杂高风险环境中多模态场景分析的研究开辟了新路径。相关代码与数据已开源,访问地址为:https://github.com/egeozsoy/MM-OR。
代码仓库
egeozsoy/MM-OR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-graph-generation-on-4d-or | MM2SG | F1: 0.901 |
| scene-graph-generation-on-mm-or | MM2SG | Macro F1: 0.529 |
| video-panoptic-segmentation-on-4d-or | MM-OR-VPQ4 | VPQ: 69.8 |
| video-panoptic-segmentation-on-4d-or | MM-OR-VPQ8 | VPQ: 69.2 |
| video-panoptic-segmentation-on-mm-or | MM-OR-VPQ4 | VPQ: 67.0 |
| video-panoptic-segmentation-on-mm-or | MM-OR-VPQ8 | VPQ: 66.4 |