3 个月前

MM-OR:面向高强度手术环境语义理解的大规模多模态手术室数据集

MM-OR:面向高强度手术环境语义理解的大规模多模态手术室数据集

摘要

手术室(Operating Rooms, ORs)是高度复杂、高风险的环境,需要精确理解医疗人员、器械与设备之间的交互关系,以提升手术辅助能力、情境感知水平以及患者安全。当前的公开数据集在规模、真实性和多模态特性方面均存在明显不足,难以全面反映手术室场景的复杂性,从而制约了手术室建模技术的发展。为此,我们提出了MM-OR——首个真实且大规模的多模态时空手术室数据集,也是首个支持多模态场景图生成的数据集。MM-OR全面捕捉了手术室场景,包含RGB-D图像、细节视图、音频、语音转录文本、机器人日志及追踪数据,并配有全景分割标注、语义场景图以及下游任务标签。此外,我们提出了MM2SG,这是首个用于场景图生成的多模态大规模视觉-语言模型。通过大量实验,我们验证了该模型能够有效融合多模态输入信息。MM-OR与MM2SG共同构建了手术室整体理解的新基准,为复杂高风险环境中多模态场景分析的研究开辟了新路径。相关代码与数据已开源,访问地址为:https://github.com/egeozsoy/MM-OR。

代码仓库

egeozsoy/MM-OR
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MM-OR:面向高强度手术环境语义理解的大规模多模态手术室数据集 | 论文 | HyperAI超神经