3 个月前

EnvEdit:面向视觉-语言导航的环境编辑

EnvEdit:面向视觉-语言导航的环境编辑

摘要

在视觉-语言导航(Vision-and-Language Navigation, VLN)任务中,智能体需根据自然语言指令在环境中进行导航。由于可用于训练智能体的数据有限,且导航环境的多样性有限,智能体在面对全新、未见过的环境时往往难以实现良好泛化。为解决这一问题,我们提出了一种名为 EnvEdit 的数据增强方法,通过编辑已有环境来生成新的环境,用于训练更具泛化能力的智能体。我们所构建的增强环境在三个不同维度上与原始环境存在差异:视觉风格、物体外观以及物体类别。在这些经过编辑增强的环境中进行训练,能够有效防止智能体对已有环境产生过拟合,从而显著提升其在新、未见环境中的泛化性能。实验结果表明,在 Room-to-Room 与多语言 Room-Across-Room 两个基准数据集上,无论是否使用预训练模型,所提出的 EnvEdit 方法均在各项评估指标上实现了显著提升,并在测试排行榜上取得了新的最先进(state-of-the-art)性能。此外,我们将基于不同编辑环境训练得到的多个 VLN 智能体进行集成,进一步验证了不同编辑方法之间具有良好的互补性。相关代码与数据已开源,获取地址为:https://github.com/jialuli-luka/EnvEdit

代码仓库

jialuli-luka/envedit
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
vision-and-language-navigation-on-rxrEnvEdit-PT
ndtw: 64.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EnvEdit:面向视觉-语言导航的环境编辑 | 论文 | HyperAI超神经