
摘要
我们提出了Room-Across-Room(RxR),一个全新的视觉与语言导航(Vision-and-Language Navigation, VLN)数据集。RxR具有多语言特性(支持英语、印地语和泰卢固语),且规模大于现有的其他VLN数据集,包含更多路径和导航指令。该数据集通过缓解路径中存在的已知偏差,并引导更多对可见实体的引用,突出了语言在VLN任务中的关键作用。此外,每条指令中的每个词语均与指令创建者和验证者的虚拟位姿进行时间对齐。我们为单语言和多语言场景,以及引入Room-to-Room标注时的多任务学习设定提供了基线性能指标。同时,我们还报告了一种模型的实验结果,该模型通过仅关注人类示范中所关注的全景图像片段,从同步的位姿轨迹中进行学习。RxR在规模、覆盖范围和细节程度上的显著提升,极大地拓展了在模拟、照片级真实感环境中具身语言智能体研究的前沿。
代码仓库
jacobkrantz/VLN-CE
pytorch
GitHub 中提及
VegB/Diagnose_VLN
pytorch
GitHub 中提及
google-research-datasets/RxR
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| vision-and-language-navigation-on-rxr | Monolingual Baseline | ndtw: 41.05 |
| vision-and-language-navigation-on-rxr | Multilingual Baseline | ndtw: 36.81 |