4 个月前

CLIP2Point:通过图像-深度预训练将CLIP应用于点云分类

CLIP2Point:通过图像-深度预训练将CLIP应用于点云分类

摘要

由于训练数据有限,3D视觉与语言的预训练仍处于发展阶段。近期的研究尝试将视觉-语言预训练模型迁移到3D视觉领域。PointCLIP将点云数据转换为多视图深度图,采用CLIP进行形状分类。然而,其性能受到渲染深度图与图像之间域差距以及深度分布多样性的限制。为了解决这一问题,我们提出了CLIP2Point,这是一种通过对比学习实现图像-深度预训练的方法,旨在将CLIP迁移到3D领域并适应点云分类任务。我们引入了一种新的深度渲染设置,以形成更好的视觉效果,并从ShapeNet中渲染了52,460对图像和深度图用于预训练。CLIP2Point的预训练方案结合了跨模态学习,以强化深度特征捕捉表达性的视觉和文本特征,以及同模态学习,以增强深度聚合的不变性。此外,我们提出了一种新颖的双路径适配器(Dual-Path Adapter, DPA)模块,即一种具有简化适配器的双路径结构,适用于少样本学习。该双路径结构允许同时使用CLIP和CLIP2Point,而简化的适配器则无需后续搜索即可很好地适应少样本任务。实验结果表明,CLIP2Point在将CLIP知识迁移至3D视觉方面是有效的。我们的CLIP2Point在零样本和少样本分类任务上优于PointCLIP和其他自监督3D网络,达到了当前最佳的结果。

代码仓库

tyhuang0428/CLIP2Point
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
training-free-3d-point-cloud-classificationCLIP2Point
Accuracy (%): 49.4
Need 3D Data?: Yes
training-free-3d-point-cloud-classification-1CLIP2Point
Accuracy (%): 23.2
Need 3D Data?: Yes
zero-shot-transfer-3d-point-cloudCLIP2Point
Accuracy (%): 49.38
zero-shot-transfer-3d-point-cloud-1CLIP2Point
Accuracy (%): 66.63
zero-shot-transfer-3d-point-cloud-2CLIP2Point
OBJ_BG Accuracy(%): 35.46
OBJ_ONLY Accuracy(%): 30.46
PB_T50_RS Accuracy (%): 23.32

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CLIP2Point:通过图像-深度预训练将CLIP应用于点云分类 | 论文 | HyperAI超神经