HyperAIHyperAI

Command Palette

Search for a command to run...

VLMs 距离视觉空间智能还有多远?一项基准驱动的视角

Abstract

视觉空间推理(Visual Spatial Reasoning, VSR)是人类核心认知能力之一,也是推动具身智能与自主系统发展的关键需求。尽管视觉-语言模型(Vision-Language Models, VLMs)近年来取得了显著进展,但由于三维空间的表征与推理机制极为复杂,实现人类水平的VSR仍面临巨大挑战。本文系统性地研究了VLMs中的视觉空间推理能力,全面回顾了现有方法在输入模态、模型架构、训练策略及推理机制等方面的进展。此外,我们将空间智能划分为三个能力层级:基础感知、空间理解与空间规划,并构建了SIBench——一个涵盖23种任务设置下近20个开源数据集的空间智能基准测试平台。对当前最先进VLMs的实验结果表明,模型在感知与推理之间存在显著差距:尽管在基础感知任务中表现良好,但在理解与规划任务中持续表现不佳,尤其在数值估算、多视角推理、时序动态建模以及空间想象等关键方面表现尤为薄弱。这些发现凸显了实现真正空间智能所面临的重大挑战,同时为未来研究提供了系统的路线图与全面的基准评估工具。本研究的相关资源可访问:https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VLMs 距离视觉空间智能还有多远?一项基准驱动的视角 | Papers | HyperAI超神经