
摘要
遵循语言指令在未知环境中导航是自主具身智能体面临的一项挑战性任务。该智能体不仅需要将语言指令与视觉场景进行语义关联,还需通过环境探索以抵达目标位置。本文提出一种双尺度图Transformer模型(DUET),用于联合实现长期动作规划与细粒度跨模态理解。我们实时构建拓扑地图,以支持在全局动作空间中的高效探索。为平衡大规模动作空间推理的复杂性与细粒度语言语义定位的需求,DUET通过图Transformer动态融合局部观测的细粒度编码与全局地图的粗粒度编码。实验结果表明,所提方法DUET在面向目标的视觉-语言导航(VLN)基准数据集REVERIE和SOON上显著优于当前最优方法,同时在细粒度VLN基准R2R上也显著提升了任务成功率。
代码仓库
cshizhe/vln-duet
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-navigation-on-room-to-room-1 | DUET | spl: 0.58 |
| visual-navigation-on-soon-test | DUET | Nav-SPL: 21.42 SR: 33.44 |