7 个月前

多模态表征

监督式微调

Hao Tan Licheng Yu Mohit Bansal

摘要

在人工智能领域的一个宏伟目标是构建一个能够基于自然语言指令准确导航的机器人，这需要该智能体能够感知场景、理解并定位语言，并在现实环境中采取行动。其中一个关键挑战是在训练过程中未见过的新环境中学习导航。现有的大多数方法在未见过的环境中的表现远不如已见过的环境。本文提出了一种可泛化的导航智能体。我们的智能体经过两个阶段的训练。第一阶段是通过混合模仿学习和强化学习进行训练，结合了离策略和在线策略优化的优势。第二阶段是通过新引入的“未见”三元组（环境、路径、指令）进行微调。为了生成这些未见三元组，我们提出了一种简单但有效的“环境丢弃”方法来模拟未见过的环境，从而克服了已见过环境变化有限的问题。接下来，我们在这些丢弃后的环境中应用半监督学习（通过反向翻译）以生成新的路径和指令。实证结果表明，当使用这些三元组进行微调时，我们的智能体在泛化能力方面显著提升，在Room-to-Room任务的私有未见测试集上大幅超越了现有最先进方法，并在排行榜上取得了最高排名。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

监督式微调

Hao Tan Licheng Yu Mohit Bansal

摘要

在人工智能领域的一个宏伟目标是构建一个能够基于自然语言指令准确导航的机器人，这需要该智能体能够感知场景、理解并定位语言，并在现实环境中采取行动。其中一个关键挑战是在训练过程中未见过的新环境中学习导航。现有的大多数方法在未见过的环境中的表现远不如已见过的环境。本文提出了一种可泛化的导航智能体。我们的智能体经过两个阶段的训练。第一阶段是通过混合模仿学习和强化学习进行训练，结合了离策略和在线策略优化的优势。第二阶段是通过新引入的“未见”三元组（环境、路径、指令）进行微调。为了生成这些未见三元组，我们提出了一种简单但有效的“环境丢弃”方法来模拟未见过的环境，从而克服了已见过环境变化有限的问题。接下来，我们在这些丢弃后的环境中应用半监督学习（通过反向翻译）以生成新的路径和指令。实证结果表明，当使用这些三元组进行微调时，我们的智能体在泛化能力方面显著提升，在Room-to-Room任务的私有未见测试集上大幅超越了现有最先进方法，并在排行榜上取得了最高排名。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

学习在未见过的环境中导航：使用环境dropout的反向翻译 | 论文 | HyperAI超神经