8 个月前

摘要

大型语言模型（LLMs）和视觉-语言模型（VLMs）已经在多个任务中表现出色，例如常识推理。尽管这些模型功能强大，但它们并未扎根于三维物理世界，而这一世界涉及更丰富的概念，如空间关系、可操作性、物理学、布局等。在本研究中，我们提出将三维世界注入大型语言模型，并引入全新的3D-LLM系列。具体而言，3D-LLM可以接受三维点云及其特征作为输入，并执行一系列与三维相关的任务，包括图像描述生成、密集描述生成、三维问答、任务分解、三维定位、三维辅助对话、导航等。通过我们设计的三种提示机制，我们能够收集超过30万条涵盖这些任务的三维语言数据。为了高效训练3D-LLM，我们首先利用一个三维特征提取器从渲染的多视角图像中获取三维特征。然后，我们以二维VLM作为骨干网络来训练我们的3D-LLM。通过引入一个三维定位机制，3D-LLM能够更好地捕捉三维空间信息。在ScanQA数据集上的实验表明，我们的模型大幅超越了现有最先进基线模型的表现（例如，BLEU-1分数比最先进水平高出9%）。此外，在我们为三维图像描述生成、任务组合和三维辅助对话保留的数据集上的实验也表明，我们的模型优于二维VLM。定性示例进一步显示，我们的模型能够执行超出现有LLM和VLM范围的任务。项目页面：https://vis-www.cs.umass.edu/3dllm/。

源 PDF 查看代码