6 个月前

摘要

在视觉-语言导航（Vision-and-Language Navigation, VLN）任务中，智能体需根据自然语言指令在环境中进行导航。由于可用于训练智能体的数据有限，且导航环境的多样性有限，智能体在面对全新、未见过的环境时往往难以实现良好泛化。为解决这一问题，我们提出了一种名为 EnvEdit 的数据增强方法，通过编辑已有环境来生成新的环境，用于训练更具泛化能力的智能体。我们所构建的增强环境在三个不同维度上与原始环境存在差异：视觉风格、物体外观以及物体类别。在这些经过编辑增强的环境中进行训练，能够有效防止智能体对已有环境产生过拟合，从而显著提升其在新、未见环境中的泛化性能。实验结果表明，在 Room-to-Room 与多语言 Room-Across-Room 两个基准数据集上，无论是否使用预训练模型，所提出的 EnvEdit 方法均在各项评估指标上实现了显著提升，并在测试排行榜上取得了新的最先进（state-of-the-art）性能。此外，我们将基于不同编辑环境训练得到的多个 VLN 智能体进行集成，进一步验证了不同编辑方法之间具有良好的互补性。相关代码与数据已开源，获取地址为：https://github.com/jialuli-luka/EnvEdit

源 PDF