4 个月前

学习在未见过的环境中导航:使用环境dropout的反向翻译

学习在未见过的环境中导航:使用环境dropout的反向翻译

摘要

在人工智能领域的一个宏伟目标是构建一个能够基于自然语言指令准确导航的机器人,这需要该智能体能够感知场景、理解并定位语言,并在现实环境中采取行动。其中一个关键挑战是在训练过程中未见过的新环境中学习导航。现有的大多数方法在未见过的环境中的表现远不如已见过的环境。本文提出了一种可泛化的导航智能体。我们的智能体经过两个阶段的训练。第一阶段是通过混合模仿学习和强化学习进行训练,结合了离策略和在线策略优化的优势。第二阶段是通过新引入的“未见”三元组(环境、路径、指令)进行微调。为了生成这些未见三元组,我们提出了一种简单但有效的“环境丢弃”方法来模拟未见过的环境,从而克服了已见过环境变化有限的问题。接下来,我们在这些丢弃后的环境中应用半监督学习(通过反向翻译)以生成新的路径和指令。实证结果表明,当使用这些三元组进行微调时,我们的智能体在泛化能力方面显著提升,在Room-to-Room任务的私有未见测试集上大幅超越了现有最先进方法,并在排行榜上取得了最高排名。

代码仓库

基准测试

基准方法指标
vision-and-language-navigation-on-vlnBack Translation with Environmental Dropout (no beam search)
error: 5.23
length: 11.66
oracle success: 0.59
spl: 0.47
success: 0.51
vision-and-language-navigation-on-vlnnull
error: 3.26
length: 686.82
oracle success: 0.99
spl: 0.01
success: 0.69
vision-language-navigation-on-room2roomR2R+EnvDrop
spl: 0.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习在未见过的环境中导航:使用环境dropout的反向翻译 | 论文 | HyperAI超神经