4 个月前

PLA:语言驱动的开放词汇3D场景理解

PLA:语言驱动的开放词汇3D场景理解

摘要

开放词汇场景理解旨在定位和识别超出已注释标签空间的未见过类别。近期2D开放词汇感知领域的突破主要得益于互联网规模的图像-文本配对数据,这些数据包含丰富的词汇概念。然而,由于缺乏大规模的3D-文本配对数据,这一成功无法直接转移到3D场景中。为此,我们提出通过从3D多视角图像生成描述来提取预训练视觉-语言(VL)基础模型中的知识,这使得3D场景与语义丰富的描述之间可以显式关联。此外,为了促进从描述中进行粗到细的视觉-语义表示学习,我们设计了层次化的3D-描述对,并利用3D场景与多视角图像之间的几何约束。最后,通过采用对比学习方法,模型学会了语言感知的嵌入向量,从而在开放词汇任务中连接3D和文本。我们的方法不仅在开放词汇语义分割和实例分割任务上显著优于基线方法,hIoU提高了25.8%~44.7%,hAP$_{50}$提高了14.5%~50.4%,还在具有挑战性的零样本域迁移任务上表现出强大的可迁移性。项目网站见:https://dingry.github.io/projects/PLA。

代码仓库

cvmi-lab/pla
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-open-vocabulary-instance-segmentation-on-2PLA
AP50 Base B6/N6: 46.9
AP50 Base B8/N4 : 59.0
AP50 Novel B6/N6: 9.8
AP50 Novel B8/N4: 8.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PLA:语言驱动的开放词汇3D场景理解 | 论文 | HyperAI超神经