4 个月前

3D-LLM:将三维世界融入大型语言模型

3D-LLM:将三维世界融入大型语言模型

摘要

大型语言模型(LLMs)和视觉-语言模型(VLMs)已经在多个任务中表现出色,例如常识推理。尽管这些模型功能强大,但它们并未扎根于三维物理世界,而这一世界涉及更丰富的概念,如空间关系、可操作性、物理学、布局等。在本研究中,我们提出将三维世界注入大型语言模型,并引入全新的3D-LLM系列。具体而言,3D-LLM可以接受三维点云及其特征作为输入,并执行一系列与三维相关的任务,包括图像描述生成、密集描述生成、三维问答、任务分解、三维定位、三维辅助对话、导航等。通过我们设计的三种提示机制,我们能够收集超过30万条涵盖这些任务的三维语言数据。为了高效训练3D-LLM,我们首先利用一个三维特征提取器从渲染的多视角图像中获取三维特征。然后,我们以二维VLM作为骨干网络来训练我们的3D-LLM。通过引入一个三维定位机制,3D-LLM能够更好地捕捉三维空间信息。在ScanQA数据集上的实验表明,我们的模型大幅超越了现有最先进基线模型的表现(例如,BLEU-1分数比最先进水平高出9%)。此外,在我们为三维图像描述生成、任务组合和三维辅助对话保留的数据集上的实验也表明,我们的模型优于二维VLM。定性示例进一步显示,我们的模型能够执行超出现有LLM和VLM范围的任务。项目页面:https://vis-www.cs.umass.edu/3dllm/。

代码仓库

openrobotlab/pointllm
pytorch
GitHub 中提及
Yui010206/CREMA
pytorch
GitHub 中提及
umass-foundation-model/3d-llm
pytorch
GitHub 中提及
qizekun/ShapeLLM
pytorch
GitHub 中提及
Pointcept/GPT4Point
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-captioning-on-objaverse-13D-LLM
Sentence-BERT: 44.48
Correctness: 1.77
GPT-4: 33.42
Hallucination: 1.16
Precision: 60.39
SimCSE: 43.68
3d-question-answering-3d-qa-on-scanqa-test-w3D-LLM (flamingo)
BLEU-1: 32.6
BLEU-4: 8.4
CIDEr: 65.6
Exact Match: 23.2
METEOR: 13.5
ROUGE: 34.8
3d-question-answering-3d-qa-on-scanqa-test-w3D-LLM (BLIP2-flant5)
BLEU-1: 38.3
BLEU-4: 11.6
CIDEr: 69.6
Exact Match: 19.1
METEOR: 14.9
ROUGE: 35.3
3d-question-answering-3d-qa-on-scanqa-test-w3D-LLM (BLIP2-opt)
BLEU-1: 37.3
BLEU-4: 10.7
CIDEr: 67.1
Exact Match: 19.1
METEOR: 14.3
ROUGE: 34.5
generative-3d-object-classification-on-13D-LLM
Objaverse (Average): 45.25
Objaverse (C): 41.50
Objaverse (I): 49.00

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供