3 个月前

Retouchdown:在StreetLearn中添加触地(Touchdown)作为街景中语言 grounding 任务的可共享资源

Retouchdown:在StreetLearn中添加触地(Touchdown)作为街景中语言 grounding 任务的可共享资源

摘要

Touchdown数据集(Chen等,2019)由人工标注者提供纽约市街道导航的指令,以及在特定位置解析空间描述的指导信息。为使更广泛的科研群体能够高效开展Touchdown相关任务的研究,我们公开发布完成该任务所需的29,000张原始街景全景图像。我们参照StreetLearn数据集发布时所采用的流程(Mirowski等,2019),对全景图像进行个人身份信息检查,并在必要时进行模糊处理。这些图像已整合至StreetLearn数据集中,可通过与此前获取StreetLearn数据相同的方式下载。此外,我们还为Touchdown任务中的两项核心任务——视觉与语言导航(Vision-and-Language Navigation, VLN)和空间描述解析(Spatial Description Resolution, SDR)——提供了参考实现代码。我们将本研究模型的实验结果与Chen等(2019)报告的结果进行对比,结果表明,我们新增至StreetLearn数据集的全景图像能够完整支持两项Touchdown任务,并可有效用于后续研究与性能比较。

代码仓库

lil-lab/touchdown
pytorch
GitHub 中提及
google-research/valan
官方
tf
GitHub 中提及
clic-lab/touchdown
pytorch
GitHub 中提及
VegB/VLN-Transformer
pytorch
GitHub 中提及

基准测试

基准方法指标
vision-and-language-navigation-on-touchdownRetouch-RConcat
Task Completion (TC): 12.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Retouchdown:在StreetLearn中添加触地(Touchdown)作为街景中语言 grounding 任务的可共享资源 | 论文 | HyperAI超神经