3 个月前

环境无关的多任务学习用于自然语言引导的导航

环境无关的多任务学习用于自然语言引导的导航

摘要

近期的研究进展使得在照片级真实感环境中开展自然语言引导的导航成为可能,例如根据自然语言指令或对话进行导航。然而,现有方法往往在已见环境的训练数据上出现过拟合,难以在未见过的环境中实现良好泛化。为缩小已见环境与未见环境之间的性能差距,本文从两个新颖视角出发,致力于学习一种具备强泛化能力的导航模型:(1)提出一种多任务导航模型,可无缝地同时在视觉-语言导航(Vision-Language Navigation, VLN)与基于对话历史的导航(Navigation from Dialog History, NDH)任务上进行训练。该模型得益于更丰富的自然语言引导信息,并能有效实现任务间知识迁移;(2)提出学习与具体环境无关的导航策略表征,使其在训练过程中所见环境之间保持不变性,从而在未见环境中具备更强的泛化能力。大量实验结果表明,环境无关的多任务学习显著缩小了已见与未见环境之间的性能差距。在VLN任务上,该导航代理在未见环境中的成功率相对基线提升16%;在NDH任务上,目标进展(goal progress)指标相对基线提升120%。此外,我们向CVDN排行榜提交的方案在预留测试集上取得了该任务的新最优性能,确立了当前最先进的水平。相关代码已开源,地址为:https://github.com/google-research/valan。

代码仓库

基准测试

基准方法指标
vision-and-language-navigation-on-vlnEnvironment-Agnostic Multitask Learning
error: 6.03
length: 13.35
oracle success: 0.56
spl: 0.4
success: 0.45
visual-navigation-on-cooperative-vision-and-1Environment-agnostic Multitask Learning
dist_to_end_reduction: 3.91
spl: 0.17

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
环境无关的多任务学习用于自然语言引导的导航 | 论文 | HyperAI超神经