
摘要
Touchdown数据集(Chen等,2019)由人工标注者提供纽约市街道导航的指令,以及在特定位置解析空间描述的指导信息。为使更广泛的科研群体能够高效开展Touchdown相关任务的研究,我们公开发布完成该任务所需的29,000张原始街景全景图像。我们参照StreetLearn数据集发布时所采用的流程(Mirowski等,2019),对全景图像进行个人身份信息检查,并在必要时进行模糊处理。这些图像已整合至StreetLearn数据集中,可通过与此前获取StreetLearn数据相同的方式下载。此外,我们还为Touchdown任务中的两项核心任务——视觉与语言导航(Vision-and-Language Navigation, VLN)和空间描述解析(Spatial Description Resolution, SDR)——提供了参考实现代码。我们将本研究模型的实验结果与Chen等(2019)报告的结果进行对比,结果表明,我们新增至StreetLearn数据集的全景图像能够完整支持两项Touchdown任务,并可有效用于后续研究与性能比较。
代码仓库
lil-lab/touchdown
pytorch
GitHub 中提及
google-research/valan
官方
tf
GitHub 中提及
clic-lab/touchdown
pytorch
GitHub 中提及
VegB/VLN-Transformer
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| vision-and-language-navigation-on-touchdown | Retouch-RConcat | Task Completion (TC): 12.8 |