3 个月前

SpatialVLM:赋予视觉-语言模型空间推理能力

SpatialVLM:赋予视觉-语言模型空间推理能力

摘要

理解与推理空间关系是视觉问答(Visual Question Answering, VQA)和机器人技术中的基础能力。尽管视觉语言模型(Vision Language Models, VLM)在某些VQA基准测试中表现出色,但在三维空间推理方面仍存在明显不足,例如难以准确识别物理对象之间的定量关系,如距离或尺寸差异。我们推测,VLM在空间推理能力上的局限性,主要源于训练数据中缺乏三维空间知识。为此,我们提出通过引入互联网规模的空间推理数据来训练VLM,以解决这一问题。为此,我们构建了一套系统化的方法。首先,我们开发了一个自动化的三维空间VQA数据生成框架,可在一千万张真实世界图像上生成高达20亿个VQA样本。随后,我们系统研究了训练过程中的多种关键因素,包括数据质量、训练流程以及VLM架构设计。本工作首次构建了基于度量空间的互联网规模三维空间推理数据集。通过在该数据集上训练VLM,我们显著提升了其在定性与定量空间VQA任务中的表现。最终,我们证明,该VLM凭借其强大的定量估算能力,能够支持全新的下游应用,包括链式思维(chain-of-thought)空间推理与机器人任务。项目主页:https://spatial-vlm.github.io/

基准测试

基准方法指标
spatial-reasoning-on-6-dof-spatialbenchSpaceMantis
Orientation-abs: 25.0
Orientation-rel: 27.2
Position-abs: 29.2
Position-rel: 33.6
Total: 28.9
spatial-reasoning-on-6-dof-spatialbenchSpaceLLaVA
Orientation-abs: 24.9
Orientation-rel: 30.9
Position-abs: 30.5
Position-rel: 32.4
Total: 28.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SpatialVLM:赋予视觉-语言模型空间推理能力 | 论文 | HyperAI超神经