6 个月前

摘要

视觉-语言导航（Vision-and-Language Navigation, VLN）是一项自然语言定位任务，其目标是让智能体学习根据语言指令，在真实世界环境中导航至指定目的地。该任务的一大挑战在于准确识别并停在正确位置，尤其是在复杂的户外环境中。现有方法将“停止”（STOP）动作与其他动作同等对待，导致智能体即使已处于正确路径上，仍常常无法在目标位置停止，从而产生不良行为。为此，我们提出了一种名为“学会停止”（Learning to Stop, L2Stop）的简单而有效的策略模块，能够有效区分“停止”动作与其他导航动作。该方法在具有挑战性的城市环境VLN数据集Touchdown上取得了新的最先进性能，相较于基线方法，在基于编辑距离加权的成功率（Success weighted by Edit Distance, SED）指标上实现了6.89%的绝对提升。

源 PDF