3 个月前

用于导航的循环视觉-语言BERT

用于导航的循环视觉-语言BERT

摘要

许多视觉语言任务的性能已显著得益于视觉-语言(Vision-and-Language, V&L)BERT模型的应用。然而,该模型在视觉-语言导航(Vision-and-Language Navigation, VLN)任务中的应用仍较为有限。其中一个主要原因是,BERT架构难以适配VLN中存在部分可观测马尔可夫决策过程(partially observable Markov decision process)的特性,后者要求具备依赖历史信息的注意力机制与决策能力。本文提出一种面向VLN任务的时间感知循环BERT模型。具体而言,我们在BERT模型中引入循环机制,以持续维护智能体的跨模态状态信息。在R2R和REVERIE两个基准数据集上的大量实验表明,所提模型能够替代更为复杂的编码器-解码器结构,实现当前最优的性能表现。此外,该方法具有良好的可扩展性,可推广至其他基于Transformer的架构,支持预训练,并能同时完成导航与指代表达(referring expression)任务。

代码仓库

YicongHong/Recurrent-VLN-BERT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-navigation-on-room-to-room-1VLN-BERT
spl: 0.57

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于导航的循环视觉-语言BERT | 论文 | HyperAI超神经