3 个月前

视觉与语言导航在未见室外场景中的泛化能力分析

视觉与语言导航在未见室外场景中的泛化能力分析

摘要

视觉与语言导航(Vision and Language Navigation, VLN)是一项具有挑战性的视觉 grounded 语言理解任务。给定一条自然语言导航指令,视觉智能体需在基于图结构的环境中与全景图像进行交互,以遵循描述的路径。以往多数研究集中于室内场景,其最佳性能仅在与训练路径相似的路线中取得,而在未见环境上测试时,性能显著下降。本文聚焦于室外场景下的VLN任务,发现与室内VLN不同,室外VLN在未见数据上的性能提升主要依赖于特定于环境图结构的特征,如路口类型嵌入(junction type embedding)或朝向变化量(heading delta),而图像信息在将VLN泛化至未见室外区域时所起作用极为有限。这些发现揭示了当前方法对城市环境图表示细节的显著偏好,提示VLN任务亟需在地理环境的规模与多样性方面进一步拓展。

代码仓库

基准测试

基准方法指标
vision-and-language-navigation-on-map2seqORAR
Task Completion (TC): 45.1
vision-and-language-navigation-on-map2seqORAR + junction type + heading delta
Task Completion (TC): 46.7
vision-and-language-navigation-on-map2seqRconcat
Task Completion (TC): 14.7
vision-and-language-navigation-on-map2seqGated Attention
Task Completion (TC): 17
vision-and-language-navigation-on-touchdownORAR + junction type + heading delta
Task Completion (TC): 29.1
vision-and-language-navigation-on-touchdownORAR
Task Completion (TC): 24.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉与语言导航在未见室外场景中的泛化能力分析 | 论文 | HyperAI超神经