GuoZiyu ; ZhangRenrui ; ZhuXiangyang ; TangYiwen ; MaXianzheng ; HanJiaming ; ChenKexin ; GaoPeng ; LiXianzhi ; LiHongsheng ; HengPheng-Ann

摘要
我们介绍了Point-Bind,这是一种3D多模态模型,可以将点云与2D图像、语言、音频和视频对齐。在ImageBind的指导下,我们在3D和多模态之间构建了一个联合嵌入空间,从而实现了许多有前景的应用,例如任意到3D生成(any-to-3D generation)、3D嵌入算术(3D embedding arithmetic)和3D开放世界理解(3D open-world understanding)。在此基础上,我们进一步提出了Point-LLM,这是首个遵循3D多模态指令的3D大语言模型(LLM)。通过参数高效的微调技术,Point-LLM将Point-Bind的语义注入到预训练的大语言模型中,例如LLaMA,该模型无需3D指令数据,但表现出卓越的3D和多模态问答能力。我们希望我们的工作能够为社区在扩展3D点云至多模态应用方面提供启示。代码可在以下地址获取:https://github.com/ZiyuGuo99/Point-Bind_Point-LLM。
代码仓库
openrobotlab/pointllm
pytorch
GitHub 中提及
zrrskywalker/point-bind
pytorch
GitHub 中提及
ziyuguo99/point-bind_point-llm
官方
pytorch
GitHub 中提及
qizekun/ShapeLLM
pytorch
GitHub 中提及
Pointcept/GPT4Point
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-question-answering-3d-qa-on-3d-mm-vet | Point-Bind & Point-LLM | Overall Accuracy: 23.5 |
| generative-3d-object-classification-on-1 | Point-Bind LLM | Objaverse (Average): 5.25 Objaverse (C): 4.50 Objaverse (I): 6.00 |
| generative-3d-object-classification-on-2 | Point-Bind LLM | ModelNet40 (Average): 45.81 |