4 个月前

PointCLIP V2:通过提示CLIP和GPT实现强大的3D开放世界学习

PointCLIP V2:通过提示CLIP和GPT实现强大的3D开放世界学习

摘要

大规模预训练模型在视觉和语言任务中展现出令人鼓舞的开放世界性能。然而,它们在三维点云上的迁移能力仍然有限,仅局限于分类任务。本文中,我们首次将CLIP和GPT结合,构建了一个统一的三维开放世界学习器,命名为PointCLIP V2,该模型充分释放了它们在零样本三维分类、分割和检测任务中的潜力。为了更好地将三维数据与预训练的语言知识对齐,PointCLIP V2包含两项关键设计。在视觉端,我们通过形状投影模块提示CLIP生成更加真实的深度图,从而缩小投影点云与自然图像之间的域差距。在文本端,我们提示GPT模型生成特定于三维的文本作为CLIP文本编码器的输入。无需在三维领域进行任何训练,我们的方法在三个数据集上分别以+42.90%、+40.44%和+28.75%的准确率显著超越了PointCLIP,在零样本三维分类任务中表现出色。此外,V2可以简便地扩展到少样本三维分类、零样本三维部件分割以及三维目标检测任务中,展示了我们在统一三维开放世界学习方面的泛化能力。

代码仓库

zrrskywalker/pointclip
pytorch
GitHub 中提及
yangyangyang127/pointclip_v2
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-open-vocabulary-instance-segmentation-on-3PointCLIPV2
AP50: 03.1
training-free-3d-part-segmentation-onPointCLIP V2
Need 3D Data?: No
mIoU: 48.4
training-free-3d-point-cloud-classificationPointCLIP V2
Accuracy (%): 64.2
Need 3D Data?: No
training-free-3d-point-cloud-classification-1PointCLIP V2
Accuracy (%): 35.4
Need 3D Data?: No
zero-shot-transfer-3d-point-cloudPointCLIP V2
Accuracy (%): 64.22
zero-shot-transfer-3d-point-cloud-1PointCLIP V2
Accuracy (%): 73.13
zero-shot-transfer-3d-point-cloud-2PointCLIP V2
OBJ_BG Accuracy(%): 41.22
OBJ_ONLY Accuracy(%): 50.09
PB_T50_RS Accuracy (%): 35.36

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供