7 个月前

自然语言处理

自然语言处理

Xin Wang Qiuyuan Huang Asli Celikyilmaz Jianfeng Gao Dinghan Shen Yuan-Fang Wang William Yang Wang Lei Zhang

摘要

视觉-语言导航（VLN）是指在真实三维环境中引导具身代理执行自然语言指令的任务。本文研究了该任务面临的三个关键挑战：跨模态对齐、不良反馈和泛化问题。首先，我们提出了一种新颖的强化跨模态匹配（RCM）方法，通过强化学习（RL）在局部和全局层面强制实现跨模态对齐。具体而言，使用一个匹配评估器来提供内在奖励，以促进指令与轨迹之间的全局匹配，并采用一个推理导航器来在局部视觉场景中进行跨模态对齐。我们在一个VLN基准数据集上的评估结果显示，我们的RCM模型在SPL指标上显著优于先前的方法，提高了10%，并达到了新的最先进性能。为了提高所学策略的泛化能力，我们进一步引入了一种自监督模仿学习（SIL）方法，通过模仿其过去的良好决策来探索未见过的环境。我们证明了SIL可以逼近更好且更高效的策略，极大地缩小了已见和未见环境之间的成功率差距（从30.7%降至11.7%）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

自然语言处理

Xin Wang Qiuyuan Huang Asli Celikyilmaz Jianfeng Gao Dinghan Shen Yuan-Fang Wang William Yang Wang Lei Zhang

摘要

视觉-语言导航（VLN）是指在真实三维环境中引导具身代理执行自然语言指令的任务。本文研究了该任务面临的三个关键挑战：跨模态对齐、不良反馈和泛化问题。首先，我们提出了一种新颖的强化跨模态匹配（RCM）方法，通过强化学习（RL）在局部和全局层面强制实现跨模态对齐。具体而言，使用一个匹配评估器来提供内在奖励，以促进指令与轨迹之间的全局匹配，并采用一个推理导航器来在局部视觉场景中进行跨模态对齐。我们在一个VLN基准数据集上的评估结果显示，我们的RCM模型在SPL指标上显著优于先前的方法，提高了10%，并达到了新的最先进性能。为了提高所学策略的泛化能力，我们进一步引入了一种自监督模仿学习（SIL）方法，通过模仿其过去的良好决策来探索未见过的环境。我们证明了SIL可以逼近更好且更高效的策略，极大地缩小了已见和未见环境之间的成功率差距（从30.7%降至11.7%）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供