3 个月前

面向视觉-语言导航的历史感知多模态Transformer

面向视觉-语言导航的历史感知多模态Transformer

摘要

视觉-语言导航(Vision-and-Language Navigation, VLN)旨在构建能够遵循指令并在真实场景中自主导航的视觉智能体。为记忆先前访问过的地点及已执行的动作,现有大多数VLN方法采用循环状态来实现记忆机制。与此不同,本文提出一种历史感知多模态Transformer(History Aware Multimodal Transformer, HAMT),将长时程历史信息有效融入多模态决策过程。HAMT通过一种分层视觉Transformer(Vision Transformer, ViT)高效编码全部历史全景观测数据:首先使用ViT对单张图像进行特征编码,随后建模单次全景观测中各图像之间的空间关系,最后捕捉历史中多个全景图像之间的时序关联。在此基础上,HAMT联合文本指令、历史记忆与当前观测,以预测下一步动作。我们首先通过若干代理任务(如单步动作预测、空间关系预测)对HAMT进行端到端训练,随后采用强化学习进一步优化导航策略。实验结果表明,HAMT在多种VLN任务上均取得了新的最先进性能,涵盖细粒度指令导航(R2R、RxR)、高层指令导航(R2R-Last、REVERIE)、对话式导航(CVDN)以及长时程视觉-语言导航(R4R、R2R-Back)。特别地,我们在长轨迹导航任务中验证了HAMT的显著优势,证明其在处理复杂、长序列导航任务时具有卓越的性能与鲁棒性。

代码仓库

cshizhe/vln-hamt
pytorch
GitHub 中提及

基准测试

基准方法指标
vision-and-language-navigation-on-rxrHAMT
ndtw: 59.94

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向视觉-语言导航的历史感知多模态Transformer | 论文 | HyperAI超神经