
摘要
大型语言模型(LLMs)的前所未有的进展对自然语言处理产生了深远的影响,但尚未完全进入三维理解领域。本文介绍了PointLLM,这是初步尝试填补这一空白的努力,使大型语言模型能够理解点云数据,并为超越二维视觉数据提供了新的途径。PointLLM能够根据人类指令理解彩色物体点云,并生成上下文合适的响应,展示了其对点云和常识的理解能力。具体而言,它利用了一个点云编码器与强大的大型语言模型相结合,有效融合了几何、外观和语言信息。我们收集了一个包含66万简单和7万复杂点-文本指令对的新颖数据集,以支持两阶段训练策略:首先是潜在空间对齐,然后是对统一模型进行指令调优。为了严格评估PointLLM的感知能力和泛化能力,我们建立了两个基准测试:生成式3D物体分类和3D物体描述生成,并通过三种不同的方法进行了评估,包括人工评估、GPT-4/ChatGPT评估以及传统指标。实验结果表明,PointLLM在现有2D和3D基线模型上表现出色,在人工评估的物体描述生成任务中超过50%的样本表现优于人类标注者。代码、数据集和基准测试可在https://github.com/OpenRobotLab/PointLLM 获取。
代码仓库
openrobotlab/pointllm
官方
pytorch
GitHub 中提及
qizekun/ShapeLLM
pytorch
GitHub 中提及
Pointcept/GPT4Point
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-captioning-on-objaverse-1 | PointLLM-7B V1.2 | Sentence-BERT: 47.47 Correctness: 3.04 GPT-4: 44.85 Hallucination: 0.66 Precision: 82.14 SimCSE: 48.55 |
| 3d-object-captioning-on-objaverse-1 | PointLLM-13B V1.2 | Sentence-BERT: 47.91 Correctness: 3.10 GPT-4: 48.15 Hallucination: 0.84 Precision: 78.75 SimCSE: 49.12 |
| 3d-question-answering-3d-qa-on-3d-mm-vet | PointLLM-13B v1.2 | Overall Accuracy: 46.6 |
| 3d-question-answering-3d-qa-on-3d-mm-vet | PointLLM-7B v1.2 | Overall Accuracy: 41.2 |
| generative-3d-object-classification-on-1 | PointLLM-13B v1.2 | Objaverse (Average): 54.00 Objaverse (C): 51.50 Objaverse (I): 56.50 |
| generative-3d-object-classification-on-1 | PointLLM-7B v1.2 | Objaverse (Average): 53.00 Objaverse (C): 51.00 Objaverse (I): 55.00 |
| generative-3d-object-classification-on-2 | PointLLM-13B v1.2 | ModelNet40 (Average): 52.78 ModelNet40 (C): 52.55 ModelNet40 (I): 53.00 |
| generative-3d-object-classification-on-2 | PointLLM-7B v1.2 | ModelNet40 (Average): 52.63 ModelNet40 (C): 51.82 ModelNet40 (I): 53.44 |