3 个月前

ULIP-2:面向可扩展的3D理解多模态预训练

ULIP-2:面向可扩展的3D理解多模态预训练

摘要

近年来,多模态预训练技术在三维(3D)表示学习方面取得了显著进展,通过对齐3D形状、其对应的二维(2D)图像以及语言描述之间的多模态特征,展现出良好的性能。然而,现有框架在构建此类多模态数据时,尤其是为3D形状生成语言描述的方法,存在可扩展性差、描述多样性不足的问题。为解决这一挑战,我们提出ULIP-2——一种简洁而高效的三模态预训练框架,该框架利用大规模多模态模型,自动为3D形状生成全面且丰富的语言描述。该方法仅需3D数据作为输入,无需任何人工标注的3D信息,因而可轻松扩展至大规模数据集。此外,ULIP-2采用了增强的骨干网络结构,以提升多模态表示学习能力。我们在两个大规模3D数据集——Objaverse和ShapeNet上进行了实验,并构建了包含3D点云、图像与语言描述的三模态数据集,用于ULIP-2的训练。实验结果表明,ULIP-2在三项下游任务中均表现出显著优势:零样本3D分类、微调后的标准3D分类,以及3D字幕生成(即3D到语言的生成任务)。在Objaverse-LVIS数据集的零样本分类任务中,ULIP-2取得了50.6%(top-1)的新最优成绩;在ModelNet40数据集上,零样本分类准确率达到84.7%(top-1)。在标准微调任务的ScanObjectNN基准测试中,ULIP-2以仅140万参数的紧凑模型结构,实现了91.5%的整体准确率。ULIP-2为无需人工标注的可扩展多模态3D表示学习开辟了新范式,并在多个基准上显著超越现有方法。相关代码与数据集已开源,访问地址为:https://github.com/salesforce/ULIP。

代码仓库

salesforce/ulip
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-point-cloud-classification-on-scanobjectnnULIP-2 + Point-BERT
Overall Accuracy: 89.0
3d-point-cloud-classification-on-scanobjectnnULIP-2 + PointNeXt (no voting)
Mean Accuracy: 90.3
Number of params: 1.4M
Overall Accuracy: 90.8
3d-point-cloud-classification-on-scanobjectnnULIP-2 + PointNeXt
Mean Accuracy: 91.2
Number of params: 1.4M
Overall Accuracy: 91.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ULIP-2:面向可扩展的3D理解多模态预训练 | 论文 | HyperAI超神经