4 个月前

超越RGB:揭示用于视觉-语言导航的混合语义-空间环境表示

超越RGB:揭示用于视觉-语言导航的混合语义-空间环境表示

摘要

基于自然语言指令在未知环境中导航对于以自我为中心的智能体(egocentric agents)而言仍然是一个难题,特别是在视觉与语言导航(Vision-and-Language Navigation, VLN)中。现有的方法主要依赖于RGB图像来表示环境,未能充分利用潜在的文本语义和空间线索,导致指令与稀疏的环境表示之间的模态差距未得到解决。直观来看,人类在室内导航时本能地将语义知识与空间布局相结合。受此启发,我们提出了一种多功能的语义理解和空间感知(Semantic Understanding and Spatial Awareness, SUSA)架构,旨在鼓励智能体从多个角度理解环境。SUSA包括一个文本语义理解(Textual Semantic Understanding, TSU)模块,该模块通过生成并关联智能体周围环境地标描述来缩小指令与环境之间的模态差距。此外,深度增强的空间感知(Depth-enhanced Spatial Perception, DSP)模块逐步构建深度探索地图,从而实现对环境布局更为细致的理解。实验结果表明,SUSA的混合语义-空间表示有效提升了导航性能,在三个VLN基准测试(REVERIE、R2R 和 SOON)中均达到了新的最先进水平。源代码将公开发布。

代码仓库

基准测试

基准方法指标
object-localization-on-reverieSUSA
Nav-Length: 17.86
Nav-SPL: 41.54
Nav-Succ: 54.39
RGS: 36.11
RGSPL: 27.31
visual-navigation-on-room-to-room-1SUSA
spl: 0.6383
visual-navigation-on-soon-testSUSA
Nav-SPL: 25.47
SR: 36.87

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超越RGB:揭示用于视觉-语言导航的混合语义-空间环境表示 | 论文 | HyperAI超神经