
摘要
开放词汇场景理解旨在定位和识别超出已注释标签空间的未见过类别。近期2D开放词汇感知领域的突破主要得益于互联网规模的图像-文本配对数据,这些数据包含丰富的词汇概念。然而,由于缺乏大规模的3D-文本配对数据,这一成功无法直接转移到3D场景中。为此,我们提出通过从3D多视角图像生成描述来提取预训练视觉-语言(VL)基础模型中的知识,这使得3D场景与语义丰富的描述之间可以显式关联。此外,为了促进从描述中进行粗到细的视觉-语义表示学习,我们设计了层次化的3D-描述对,并利用3D场景与多视角图像之间的几何约束。最后,通过采用对比学习方法,模型学会了语言感知的嵌入向量,从而在开放词汇任务中连接3D和文本。我们的方法不仅在开放词汇语义分割和实例分割任务上显著优于基线方法,hIoU提高了25.8%~44.7%,hAP$_{50}$提高了14.5%~50.4%,还在具有挑战性的零样本域迁移任务上表现出强大的可迁移性。项目网站见:https://dingry.github.io/projects/PLA。
代码仓库
cvmi-lab/pla
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-open-vocabulary-instance-segmentation-on-2 | PLA | AP50 Base B6/N6: 46.9 AP50 Base B8/N4 : 59.0 AP50 Novel B6/N6: 9.8 AP50 Novel B8/N4: 8.6 |