摘要

近年来，多模态预训练技术在三维（3D）表示学习方面取得了显著进展，通过对齐3D形状、其对应的二维（2D）图像以及语言描述之间的多模态特征，展现出良好的性能。然而，现有框架在构建此类多模态数据时，尤其是为3D形状生成语言描述的方法，存在可扩展性差、描述多样性不足的问题。为解决这一挑战，我们提出ULIP-2——一种简洁而高效的三模态预训练框架，该框架利用大规模多模态模型，自动为3D形状生成全面且丰富的语言描述。该方法仅需3D数据作为输入，无需任何人工标注的3D信息，因而可轻松扩展至大规模数据集。此外，ULIP-2采用了增强的骨干网络结构，以提升多模态表示学习能力。我们在两个大规模3D数据集——Objaverse和ShapeNet上进行了实验，并构建了包含3D点云、图像与语言描述的三模态数据集，用于ULIP-2的训练。实验结果表明，ULIP-2在三项下游任务中均表现出显著优势：零样本3D分类、微调后的标准3D分类，以及3D字幕生成（即3D到语言的生成任务）。在Objaverse-LVIS数据集的零样本分类任务中，ULIP-2取得了50.6%（top-1）的新最优成绩；在ModelNet40数据集上，零样本分类准确率达到84.7%（top-1）。在标准微调任务的ScanObjectNN基准测试中，ULIP-2以仅140万参数的紧凑模型结构，实现了91.5%的整体准确率。ULIP-2为无需人工标注的可扩展多模态3D表示学习开辟了新范式，并在多个基准上显著超越现有方法。相关代码与数据集已开源，访问地址为：https://github.com/salesforce/ULIP。

源 PDF