TakmazAyça ; FedeleElisabetta ; SumnerRobert W. ; PollefeysMarc ; TombariFederico ; EngelmannFrancis

摘要
我们介绍了开放词汇3D实例分割的任务。目前的3D实例分割方法通常只能识别训练数据集中注释的预定义封闭类别的对象。这在实际应用中带来了重要限制,因为在现实世界中,可能需要根据与各种对象相关的新型、开放词汇查询来执行任务。最近,出现了一些开放词汇3D场景理解方法,通过学习每个场景点的可查询特征来解决这一问题。虽然这种表示可以直接用于进行语义分割,但现有的方法无法区分多个对象实例。在这项工作中,我们解决了这一限制,并提出了OpenMask3D,这是一种针对开放词汇3D实例分割的零样本方法。在预测的类别无关3D实例掩码的引导下,我们的模型通过多视图融合CLIP(基于图像嵌入)的方法聚合每掩码特征。在ScanNet200和Replica上的实验和消融研究表明,OpenMask3D优于其他开放词汇方法,特别是在长尾分布上表现突出。定性实验进一步展示了OpenMask3D根据描述几何形状、功能性和材料的自由形式查询来分割对象属性的能力。
代码仓库
OpenMask3D/openmask3d
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-open-vocabulary-instance-segmentation-on | OpenMask3D | AP Common: 14.1 AP Head: 17.1 AP Tail: 14.9 AP25: 23.1 AP50: 19.9 mAP: 15.4 |
| 3d-open-vocabulary-instance-segmentation-on-1 | OpenMask3D | mAP: 13.1 |