5 个月前

Songsong Yu Yuxin Chen Hao Ju Lianjie Jia Fuxi Zhang Shaofei Huang Yuhan Wu Rundi Cui Binghao Ran Zaibin Zhang

摘要

视觉空间推理（Visual Spatial Reasoning, VSR）是人类核心认知能力之一，也是推动具身智能与自主系统发展的关键需求。尽管视觉-语言模型（Vision-Language Models, VLMs）近年来取得了显著进展，但由于三维空间的表征与推理机制极为复杂，实现人类水平的VSR仍面临巨大挑战。本文系统性地研究了VLMs中的视觉空间推理能力，全面回顾了现有方法在输入模态、模型架构、训练策略及推理机制等方面的进展。此外，我们将空间智能划分为三个能力层级：基础感知、空间理解与空间规划，并构建了SIBench——一个涵盖23种任务设置下近20个开源数据集的空间智能基准测试平台。对当前最先进VLMs的实验结果表明，模型在感知与推理之间存在显著差距：尽管在基础感知任务中表现良好，但在理解与规划任务中持续表现不佳，尤其在数值估算、多视角推理、时序动态建模以及空间想象等关键方面表现尤为薄弱。这些发现凸显了实现真正空间智能所面临的重大挑战，同时为未来研究提供了系统的路线图与全面的基准评估工具。本研究的相关资源可访问：https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Songsong Yu Yuxin Chen Hao Ju Lianjie Jia Fuxi Zhang Shaofei Huang Yuhan Wu Rundi Cui Binghao Ran Zaibin Zhang

摘要

视觉空间推理（Visual Spatial Reasoning, VSR）是人类核心认知能力之一，也是推动具身智能与自主系统发展的关键需求。尽管视觉-语言模型（Vision-Language Models, VLMs）近年来取得了显著进展，但由于三维空间的表征与推理机制极为复杂，实现人类水平的VSR仍面临巨大挑战。本文系统性地研究了VLMs中的视觉空间推理能力，全面回顾了现有方法在输入模态、模型架构、训练策略及推理机制等方面的进展。此外，我们将空间智能划分为三个能力层级：基础感知、空间理解与空间规划，并构建了SIBench——一个涵盖23种任务设置下近20个开源数据集的空间智能基准测试平台。对当前最先进VLMs的实验结果表明，模型在感知与推理之间存在显著差距：尽管在基础感知任务中表现良好，但在理解与规划任务中持续表现不佳，尤其在数值估算、多视角推理、时序动态建模以及空间想象等关键方面表现尤为薄弱。这些发现凸显了实现真正空间智能所面临的重大挑战，同时为未来研究提供了系统的路线图与全面的基准评估工具。本研究的相关资源可访问：https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供