4 个月前

Point-Bind & Point-LLM:多模态点云对齐用于三维理解、生成和指令跟随

Point-Bind & Point-LLM:多模态点云对齐用于三维理解、生成和指令跟随

摘要

我们介绍了Point-Bind,这是一种3D多模态模型,可以将点云与2D图像、语言、音频和视频对齐。在ImageBind的指导下,我们在3D和多模态之间构建了一个联合嵌入空间,从而实现了许多有前景的应用,例如任意到3D生成(any-to-3D generation)、3D嵌入算术(3D embedding arithmetic)和3D开放世界理解(3D open-world understanding)。在此基础上,我们进一步提出了Point-LLM,这是首个遵循3D多模态指令的3D大语言模型(LLM)。通过参数高效的微调技术,Point-LLM将Point-Bind的语义注入到预训练的大语言模型中,例如LLaMA,该模型无需3D指令数据,但表现出卓越的3D和多模态问答能力。我们希望我们的工作能够为社区在扩展3D点云至多模态应用方面提供启示。代码可在以下地址获取:https://github.com/ZiyuGuo99/Point-Bind_Point-LLM。

代码仓库

openrobotlab/pointllm
pytorch
GitHub 中提及
zrrskywalker/point-bind
pytorch
GitHub 中提及
ziyuguo99/point-bind_point-llm
官方
pytorch
GitHub 中提及
qizekun/ShapeLLM
pytorch
GitHub 中提及
Pointcept/GPT4Point
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-question-answering-3d-qa-on-3d-mm-vetPoint-Bind & Point-LLM
Overall Accuracy: 23.5
generative-3d-object-classification-on-1Point-Bind LLM
Objaverse (Average): 5.25
Objaverse (C): 4.50
Objaverse (I): 6.00
generative-3d-object-classification-on-2Point-Bind LLM
ModelNet40 (Average): 45.81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Point-Bind & Point-LLM:多模态点云对齐用于三维理解、生成和指令跟随 | 论文 | HyperAI超神经