Command Palette
Search for a command to run...
Shouwei Ruan Liyuan Wang Caixin Kang Qihui Zhu Songming Liu Xingxing Wei Hang Su

摘要
空间认知通过构建空间的内部模型,实现适应性目标导向行为。稳健的生物系统将空间知识整合为三种相互关联的形式:用于标识显著线索的地标信息、用于描述运动轨迹的路径知识,以及用于构建地图式表征的全局认知知识。尽管多模态大语言模型(MLLMs)近年来在具身智能体中实现了视觉-语言推理,但这些方法缺乏结构化的空间记忆,而是采取反应式运作方式,限制了其在复杂现实环境中的泛化能力与适应性。本文提出一种受大脑启发的空间认知导航框架——BSC-Nav(Brain-inspired Spatial Cognition for Navigation),该框架统一实现了具身智能体中结构化空间记忆的构建与利用。BSC-Nav基于视角中心的运动轨迹与上下文线索,构建出以环境为中心的认知地图,并能根据语义目标动态检索相应的空间知识。当与强大的多模态大语言模型相结合时,BSC-Nav在多种导航任务中均展现出当前最优的性能与效率,具备出色的零样本泛化能力,并支持在真实物理世界中实现多样化的具身行为,为实现通用空间智能提供了一条可扩展且具有生物学基础的可行路径。