
摘要
视觉与语言导航(Vision and Language Navigation, VLN)是一项具有挑战性的视觉 grounded 语言理解任务。给定一条自然语言导航指令,视觉智能体需在基于图结构的环境中与全景图像进行交互,以遵循描述的路径。以往多数研究集中于室内场景,其最佳性能仅在与训练路径相似的路线中取得,而在未见环境上测试时,性能显著下降。本文聚焦于室外场景下的VLN任务,发现与室内VLN不同,室外VLN在未见数据上的性能提升主要依赖于特定于环境图结构的特征,如路口类型嵌入(junction type embedding)或朝向变化量(heading delta),而图像信息在将VLN泛化至未见室外区域时所起作用极为有限。这些发现揭示了当前方法对城市环境图表示细节的显著偏好,提示VLN任务亟需在地理环境的规模与多样性方面进一步拓展。
代码仓库
raphael-sch/map2seq_vln
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| vision-and-language-navigation-on-map2seq | ORAR | Task Completion (TC): 45.1 |
| vision-and-language-navigation-on-map2seq | ORAR + junction type + heading delta | Task Completion (TC): 46.7 |
| vision-and-language-navigation-on-map2seq | Rconcat | Task Completion (TC): 14.7 |
| vision-and-language-navigation-on-map2seq | Gated Attention | Task Completion (TC): 17 |
| vision-and-language-navigation-on-touchdown | ORAR + junction type + heading delta | Task Completion (TC): 29.1 |
| vision-and-language-navigation-on-touchdown | ORAR | Task Completion (TC): 24.2 |