4 个月前

MiniGPT-3D:利用2D先验高效对齐3D点云与大型语言模型

MiniGPT-3D:利用2D先验高效对齐3D点云与大型语言模型

摘要

大型二维视觉-语言模型(2D-LLMs)通过使用简单的投影器将大型语言模型(LLMs)与图像连接起来,已经引起了广泛关注。受其成功的启发,大型三维点云-语言模型(3D-LLMs)也开始将点云集成到LLMs中。然而,直接对齐点云与LLM需要高昂的训练成本,通常在A100 GPU上需要数百小时的训练时间,这阻碍了3D-LLMs的发展。本文介绍了一种高效且强大的三维点云-语言模型——MiniGPT-3D,该模型仅在一个RTX 3090 GPU上训练27小时即可实现多个最先进(SOTA)的结果。具体而言,我们提出利用来自2D-LLMs的二维先验知识来对齐三维点云与LLMs,从而利用2D和3D视觉信息之间的相似性。我们引入了一种新颖的四阶段级联模态对齐训练策略,以及一个混合查询专家模块以高效地自适应聚合特征。此外,我们采用了参数高效的微调方法LoRA和Norm微调,使得可学习参数仅为47.8M,比现有方法减少了多达260倍。大量实验表明,MiniGPT-3D在三维物体分类和描述任务中达到了最先进水平,并且训练成本显著降低。特别值得一提的是,在具有挑战性的物体描述任务中,MiniGPT-3D相比ShapeLLM-13B在GPT-4评估得分上提高了8.12分,而后者在8个A800 GPU上总共需要160小时的训练时间。我们是首个探索高效3D-LLM的研究团队,为社区提供了新的见解。代码和权重可在以下地址获取:https://github.com/TangYuan96/MiniGPT-3D。

代码仓库

tangyuan96/minigpt-3d
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-captioning-on-objaverse-1MiniGPT-3D
Sentence-BERT: 49.54
Correctness: 3.50
GPT-4: 57.06
Hallucination: 0.71
Precision: 83.14
SimCSE: 51.39
generative-3d-object-classification-on-1MiniGPT-3D
Objaverse (Average): 60.25
Objaverse (C): 60.50
Objaverse (I): 60.00
generative-3d-object-classification-on-2MiniGPT-3D
ModelNet40 (Average): 60.86
ModelNet40 (C): 59.97
ModelNet40 (I): 61.75

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MiniGPT-3D:利用2D先验高效对齐3D点云与大型语言模型 | 论文 | HyperAI超神经