HyperAIHyperAI

Command Palette

Search for a command to run...

用于导航的循环视觉-语言BERT

Yicong Hong Qi Wu Yuankai Qi Cristian Rodriguez-Opazo Stephen Gould

摘要

许多视觉语言任务的性能已显著得益于视觉-语言(Vision-and-Language, V&L)BERT模型的应用。然而,该模型在视觉-语言导航(Vision-and-Language Navigation, VLN)任务中的应用仍较为有限。其中一个主要原因是,BERT架构难以适配VLN中存在部分可观测马尔可夫决策过程(partially observable Markov decision process)的特性,后者要求具备依赖历史信息的注意力机制与决策能力。本文提出一种面向VLN任务的时间感知循环BERT模型。具体而言,我们在BERT模型中引入循环机制,以持续维护智能体的跨模态状态信息。在R2R和REVERIE两个基准数据集上的大量实验表明,所提模型能够替代更为复杂的编码器-解码器结构,实现当前最优的性能表现。此外,该方法具有良好的可扩展性,可推广至其他基于Transformer的架构,支持预训练,并能同时完成导航与指代表达(referring expression)任务。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供