
摘要
在这项工作中,我们介绍了OpenIns3D,这是一种新的仅以3D输入为基础的框架,用于3D开放词汇场景理解。OpenIns3D框架采用了“Mask-Snap-Lookup”方案。其中,“Mask”模块在3D点云中学习类别无关的掩码提议,“Snap”模块生成多尺度的合成场景级图像,并利用2D视觉-语言模型提取感兴趣的对象,“Lookup”模块则通过搜索“Snap”的结果来为提议的掩码分配类别名称。尽管该方法简单,但在包括识别、物体检测和实例分割在内的广泛3D开放词汇任务中,无论是在室内还是室外数据集上,均达到了最先进的性能。此外,OpenIns3D支持在不同2D检测器之间轻松切换而无需重新训练。当与强大的2D开放世界模型结合时,它在场景理解任务中取得了优异的结果。进一步地,当与基于大型语言模型(LLM)的2D模型结合时,OpenIns3D展示了令人印象深刻的处理复杂文本查询的能力,这些查询需要复杂的推理和现实世界的知识。项目页面:https://zheninghuang.github.io/OpenIns3D/
代码仓库
Pointcept/OpenIns3D
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-open-vocabulary-instance-segmentation-on | OpenIns3D (3d only) | AP Common: 6.5 AP Head: 16.0 AP Tail: 4.2 AP25: 14.4 AP50: 10.3 mAP: 8.8 |
| 3d-open-vocabulary-instance-segmentation-on | OpenIns3D | AP Common: 14.2 AP Head: 19.2 AP Tail: 14.2 AP25: 23.3 AP50: 20.6 mAP: 15.9 |
| 3d-open-vocabulary-instance-segmentation-on-1 | OpenIns3D | mAP: 15.4 |
| 3d-open-vocabulary-instance-segmentation-on-1 | OpenIns3D (with rgbd) | mAP: 21.1 |
| 3d-open-vocabulary-instance-segmentation-on-2 | OpenIns3D | AP50 Novel B6/N6: 33.0 AP50 Novel B8/N4: 37.0 |
| 3d-open-vocabulary-instance-segmentation-on-3 | OPENINS3D | AP50: 13.3 |