6 个月前

多模态表征

Boyuan Chen Zhuo Xu Sean Kirmani Brian Ichter Danny Driess Pete Florence Dorsa Sadigh Leonidas Guibas Fei Xia

摘要

理解与推理空间关系是视觉问答（Visual Question Answering, VQA）和机器人技术中的基础能力。尽管视觉语言模型（Vision Language Models, VLM）在某些VQA基准测试中表现出色，但在三维空间推理方面仍存在明显不足，例如难以准确识别物理对象之间的定量关系，如距离或尺寸差异。我们推测，VLM在空间推理能力上的局限性，主要源于训练数据中缺乏三维空间知识。为此，我们提出通过引入互联网规模的空间推理数据来训练VLM，以解决这一问题。为此，我们构建了一套系统化的方法。首先，我们开发了一个自动化的三维空间VQA数据生成框架，可在一千万张真实世界图像上生成高达20亿个VQA样本。随后，我们系统研究了训练过程中的多种关键因素，包括数据质量、训练流程以及VLM架构设计。本工作首次构建了基于度量空间的互联网规模三维空间推理数据集。通过在该数据集上训练VLM，我们显著提升了其在定性与定量空间VQA任务中的表现。最终，我们证明，该VLM凭借其强大的定量估算能力，能够支持全新的下游应用，包括链式思维（chain-of-thought）空间推理与机器人任务。项目主页：https://spatial-vlm.github.io/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Boyuan Chen Zhuo Xu Sean Kirmani Brian Ichter Danny Driess Pete Florence Dorsa Sadigh Leonidas Guibas Fei Xia

摘要

理解与推理空间关系是视觉问答（Visual Question Answering, VQA）和机器人技术中的基础能力。尽管视觉语言模型（Vision Language Models, VLM）在某些VQA基准测试中表现出色，但在三维空间推理方面仍存在明显不足，例如难以准确识别物理对象之间的定量关系，如距离或尺寸差异。我们推测，VLM在空间推理能力上的局限性，主要源于训练数据中缺乏三维空间知识。为此，我们提出通过引入互联网规模的空间推理数据来训练VLM，以解决这一问题。为此，我们构建了一套系统化的方法。首先，我们开发了一个自动化的三维空间VQA数据生成框架，可在一千万张真实世界图像上生成高达20亿个VQA样本。随后，我们系统研究了训练过程中的多种关键因素，包括数据质量、训练流程以及VLM架构设计。本工作首次构建了基于度量空间的互联网规模三维空间推理数据集。通过在该数据集上训练VLM，我们显著提升了其在定性与定量空间VQA任务中的表现。最终，我们证明，该VLM凭借其强大的定量估算能力，能够支持全新的下游应用，包括链式思维（chain-of-thought）空间推理与机器人任务。项目主页：https://spatial-vlm.github.io/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供