4 个月前

PointLLM:赋能大规模语言模型理解点云数据

PointLLM:赋能大规模语言模型理解点云数据

摘要

大型语言模型(LLMs)的前所未有的进展对自然语言处理产生了深远的影响,但尚未完全进入三维理解领域。本文介绍了PointLLM,这是初步尝试填补这一空白的努力,使大型语言模型能够理解点云数据,并为超越二维视觉数据提供了新的途径。PointLLM能够根据人类指令理解彩色物体点云,并生成上下文合适的响应,展示了其对点云和常识的理解能力。具体而言,它利用了一个点云编码器与强大的大型语言模型相结合,有效融合了几何、外观和语言信息。我们收集了一个包含66万简单和7万复杂点-文本指令对的新颖数据集,以支持两阶段训练策略:首先是潜在空间对齐,然后是对统一模型进行指令调优。为了严格评估PointLLM的感知能力和泛化能力,我们建立了两个基准测试:生成式3D物体分类和3D物体描述生成,并通过三种不同的方法进行了评估,包括人工评估、GPT-4/ChatGPT评估以及传统指标。实验结果表明,PointLLM在现有2D和3D基线模型上表现出色,在人工评估的物体描述生成任务中超过50%的样本表现优于人类标注者。代码、数据集和基准测试可在https://github.com/OpenRobotLab/PointLLM 获取。

代码仓库

openrobotlab/pointllm
官方
pytorch
GitHub 中提及
qizekun/ShapeLLM
pytorch
GitHub 中提及
Pointcept/GPT4Point
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-captioning-on-objaverse-1PointLLM-7B V1.2
Sentence-BERT: 47.47
Correctness: 3.04
GPT-4: 44.85
Hallucination: 0.66
Precision: 82.14
SimCSE: 48.55
3d-object-captioning-on-objaverse-1PointLLM-13B V1.2
Sentence-BERT: 47.91
Correctness: 3.10
GPT-4: 48.15
Hallucination: 0.84
Precision: 78.75
SimCSE: 49.12
3d-question-answering-3d-qa-on-3d-mm-vetPointLLM-13B v1.2
Overall Accuracy: 46.6
3d-question-answering-3d-qa-on-3d-mm-vetPointLLM-7B v1.2
Overall Accuracy: 41.2
generative-3d-object-classification-on-1PointLLM-13B v1.2
Objaverse (Average): 54.00
Objaverse (C): 51.50
Objaverse (I): 56.50
generative-3d-object-classification-on-1PointLLM-7B v1.2
Objaverse (Average): 53.00
Objaverse (C): 51.00
Objaverse (I): 55.00
generative-3d-object-classification-on-2PointLLM-13B v1.2
ModelNet40 (Average): 52.78
ModelNet40 (C): 52.55
ModelNet40 (I): 53.00
generative-3d-object-classification-on-2PointLLM-7B v1.2
ModelNet40 (Average): 52.63
ModelNet40 (C): 51.82
ModelNet40 (I): 53.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PointLLM:赋能大规模语言模型理解点云数据 | 论文 | HyperAI超神经