
摘要
基于自然语言指令在未知环境中导航对于以自我为中心的智能体(egocentric agents)而言仍然是一个难题,特别是在视觉与语言导航(Vision-and-Language Navigation, VLN)中。现有的方法主要依赖于RGB图像来表示环境,未能充分利用潜在的文本语义和空间线索,导致指令与稀疏的环境表示之间的模态差距未得到解决。直观来看,人类在室内导航时本能地将语义知识与空间布局相结合。受此启发,我们提出了一种多功能的语义理解和空间感知(Semantic Understanding and Spatial Awareness, SUSA)架构,旨在鼓励智能体从多个角度理解环境。SUSA包括一个文本语义理解(Textual Semantic Understanding, TSU)模块,该模块通过生成并关联智能体周围环境地标描述来缩小指令与环境之间的模态差距。此外,深度增强的空间感知(Depth-enhanced Spatial Perception, DSP)模块逐步构建深度探索地图,从而实现对环境布局更为细致的理解。实验结果表明,SUSA的混合语义-空间表示有效提升了导航性能,在三个VLN基准测试(REVERIE、R2R 和 SOON)中均达到了新的最先进水平。源代码将公开发布。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-localization-on-reverie | SUSA | Nav-Length: 17.86 Nav-SPL: 41.54 Nav-Succ: 54.39 RGS: 36.11 RGSPL: 27.31 |
| visual-navigation-on-room-to-room-1 | SUSA | spl: 0.6383 |
| visual-navigation-on-soon-test | SUSA | Nav-SPL: 25.47 SR: 36.87 |