4 个月前

ULIP:学习语言、图像和点云的统一表示以实现三维理解

ULIP:学习语言、图像和点云的统一表示以实现三维理解

摘要

当前最先进的3D模型的识别能力受到注释数据量较少的数据集和预定义类别集的限制。在2D领域的研究中,最近的进展表明,通过利用其他模态(如语言)的知识,可以显著缓解类似问题。受此启发,利用多模态信息来改善3D模态下的理解能力,在数据受限的情况下可能是一个有前景的方向,但这一研究方向尚未得到充分探索。因此,我们引入了ULIP,该方法通过使用来自三种模态的对象三元组进行预训练,学习图像、文本和3D点云的统一表示。为了克服训练三元组不足的问题,ULIP利用了一个已经通过大量图像-文本对训练而学会了共同视觉和文本空间的预训练视觉-语言模型。随后,ULIP使用少量自动合成的三元组学习一个与共同图像-文本空间对齐的3D表示空间。ULIP不依赖于特定的3D骨干网络,并且可以轻松集成到任何3D架构中。实验结果表明,仅通过在ShapeNet55上使用我们的框架对多个最新的3D骨干网络进行预训练,ULIP就能有效提升它们的性能,在ModelNet40和ScanObjectNN的标准3D分类和零样本3D分类任务中均达到了最先进水平。此外,ULIP还在ScanObjectNN上的3D分类任务中将PointMLP的性能提升了约3%,并在ModelNet40上的零样本3D分类任务中以Top-1准确率超越了PointCLIP 28.8%。我们的代码和预训练模型已发布在https://github.com/salesforce/ULIP。

代码仓库

salesforce/ulip
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-point-cloud-classification-on-modelnet40ULIP + PointNet++(ssg)
Mean Accuracy: 91.2
Overall Accuracy: 93.4
3d-point-cloud-classification-on-modelnet40ULIP + PointMLP
Mean Accuracy: 92.4
Overall Accuracy: 94.7
3d-point-cloud-classification-on-modelnet40ULIP + PointBERT
Overall Accuracy: 94.1
3d-point-cloud-classification-on-scanobjectnnULIP + PointBERT
Overall Accuracy: 86.4
3d-point-cloud-classification-on-scanobjectnnULIP + PointMLP
Mean Accuracy: 88.5
Overall Accuracy: 89.4
3d-point-cloud-classification-on-scanobjectnnULIP + PointNeXt
Mean Accuracy: 88.6
Number of params: 1.4M
Overall Accuracy: 89.7
training-free-3d-point-cloud-classificationULIP
Accuracy (%): 60.4
Need 3D Data?: Yes
zero-shot-transfer-3d-point-cloudULIP + PointMLP
Accuracy (%): 61.5
zero-shot-transfer-3d-point-cloudULIP + PointBERT
Accuracy (%): 60.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ULIP:学习语言、图像和点云的统一表示以实现三维理解 | 论文 | HyperAI超神经