4 个月前

视觉-语言导航:在真实环境中解释基于视觉的导航指令

视觉-语言导航:在真实环境中解释基于视觉的导航指令

摘要

能够执行自然语言指令的机器人一直是人们梦寐以求的目标,早在《杰森一家》(The Jetsons)动画系列中就设想了由一群贴心的机器人助手协助的生活。然而,这一梦想仍然遥不可及。不过,近期在视觉和语言方法上的进展已经在相关领域取得了令人难以置信的突破。这一点尤为重要,因为基于所见内容解释自然语言导航指令的机器人实际上是在进行类似于视觉问答(Visual Question Answering)的过程。这两项任务都可以被解读为基于视觉的序列到序列翻译问题,许多相同的方法在这两个领域都是适用的。为了促进和支持将视觉和语言方法应用于解释基于视觉的导航指令的问题,我们推出了Matterport3D模拟器——一个基于真实图像的大规模强化学习环境。利用这一模拟器,未来可以支持多种具身化的视觉和语言任务,我们提供了首个在真实建筑物中进行基于视觉的自然语言导航的基准数据集——Room-to-Room(R2R)数据集。

代码仓库

MarSaKi/NvEM
pytorch
GitHub 中提及
peteanderson80/Matterport3DSimulator
官方
pytorch
GitHub 中提及
batra-mlp-lab/vln-chasing-ghosts
pytorch
GitHub 中提及
YicongHong/Recurrent-VLN-BERT
pytorch
GitHub 中提及
batra-mlp-lab/vln-sim2real
pytorch
GitHub 中提及
YicongHong/Entity-Graph-VLN
pytorch
GitHub 中提及
hlr/vln-trans
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-navigation-on-room-to-room-1Seq2Seq baseline
spl: 0.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉-语言导航:在真实环境中解释基于视觉的导航指令 | 论文 | HyperAI超神经