3 个月前

跨房间:基于密集时空定位的多语言视觉-语言导航

跨房间:基于密集时空定位的多语言视觉-语言导航

摘要

我们提出了Room-Across-Room(RxR),一个全新的视觉与语言导航(Vision-and-Language Navigation, VLN)数据集。RxR具有多语言特性(支持英语、印地语和泰卢固语),且规模大于现有的其他VLN数据集,包含更多路径和导航指令。该数据集通过缓解路径中存在的已知偏差,并引导更多对可见实体的引用,突出了语言在VLN任务中的关键作用。此外,每条指令中的每个词语均与指令创建者和验证者的虚拟位姿进行时间对齐。我们为单语言和多语言场景,以及引入Room-to-Room标注时的多任务学习设定提供了基线性能指标。同时,我们还报告了一种模型的实验结果,该模型通过仅关注人类示范中所关注的全景图像片段,从同步的位姿轨迹中进行学习。RxR在规模、覆盖范围和细节程度上的显著提升,极大地拓展了在模拟、照片级真实感环境中具身语言智能体研究的前沿。

代码仓库

jacobkrantz/VLN-CE
pytorch
GitHub 中提及
VegB/Diagnose_VLN
pytorch
GitHub 中提及
google-research-datasets/RxR
官方
tf
GitHub 中提及

基准测试

基准方法指标
vision-and-language-navigation-on-rxrMonolingual Baseline
ndtw: 41.05
vision-and-language-navigation-on-rxrMultilingual Baseline
ndtw: 36.81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跨房间:基于密集时空定位的多语言视觉-语言导航 | 论文 | HyperAI超神经