4 个月前

OpenIns3D:面向开放词汇的3D实例分割的捕捉与查找

OpenIns3D:面向开放词汇的3D实例分割的捕捉与查找

摘要

在这项工作中,我们介绍了OpenIns3D,这是一种新的仅以3D输入为基础的框架,用于3D开放词汇场景理解。OpenIns3D框架采用了“Mask-Snap-Lookup”方案。其中,“Mask”模块在3D点云中学习类别无关的掩码提议,“Snap”模块生成多尺度的合成场景级图像,并利用2D视觉-语言模型提取感兴趣的对象,“Lookup”模块则通过搜索“Snap”的结果来为提议的掩码分配类别名称。尽管该方法简单,但在包括识别、物体检测和实例分割在内的广泛3D开放词汇任务中,无论是在室内还是室外数据集上,均达到了最先进的性能。此外,OpenIns3D支持在不同2D检测器之间轻松切换而无需重新训练。当与强大的2D开放世界模型结合时,它在场景理解任务中取得了优异的结果。进一步地,当与基于大型语言模型(LLM)的2D模型结合时,OpenIns3D展示了令人印象深刻的处理复杂文本查询的能力,这些查询需要复杂的推理和现实世界的知识。项目页面:https://zheninghuang.github.io/OpenIns3D/

代码仓库

Pointcept/OpenIns3D
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-open-vocabulary-instance-segmentation-onOpenIns3D (3d only)
AP Common: 6.5
AP Head: 16.0
AP Tail: 4.2
AP25: 14.4
AP50: 10.3
mAP: 8.8
3d-open-vocabulary-instance-segmentation-onOpenIns3D
AP Common: 14.2
AP Head: 19.2
AP Tail: 14.2
AP25: 23.3
AP50: 20.6
mAP: 15.9
3d-open-vocabulary-instance-segmentation-on-1OpenIns3D
mAP: 15.4
3d-open-vocabulary-instance-segmentation-on-1OpenIns3D (with rgbd)
mAP: 21.1
3d-open-vocabulary-instance-segmentation-on-2OpenIns3D
AP50 Novel B6/N6: 33.0
AP50 Novel B8/N4: 37.0
3d-open-vocabulary-instance-segmentation-on-3OPENINS3D
AP50: 13.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OpenIns3D:面向开放词汇的3D实例分割的捕捉与查找 | 论文 | HyperAI超神经