6 个月前

多任务学习

Yicong Hong Qi Wu Yuankai Qi Cristian Rodriguez-Opazo Stephen Gould

摘要

许多视觉语言任务的性能已显著得益于视觉-语言（Vision-and-Language, V&L）BERT模型的应用。然而，该模型在视觉-语言导航（Vision-and-Language Navigation, VLN）任务中的应用仍较为有限。其中一个主要原因是，BERT架构难以适配VLN中存在部分可观测马尔可夫决策过程（partially observable Markov decision process）的特性，后者要求具备依赖历史信息的注意力机制与决策能力。本文提出一种面向VLN任务的时间感知循环BERT模型。具体而言，我们在BERT模型中引入循环机制，以持续维护智能体的跨模态状态信息。在R2R和REVERIE两个基准数据集上的大量实验表明，所提模型能够替代更为复杂的编码器-解码器结构，实现当前最优的性能表现。此外，该方法具有良好的可扩展性，可推广至其他基于Transformer的架构，支持预训练，并能同时完成导航与指代表达（referring expression）任务。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

Yicong Hong Qi Wu Yuankai Qi Cristian Rodriguez-Opazo Stephen Gould

摘要

许多视觉语言任务的性能已显著得益于视觉-语言（Vision-and-Language, V&L）BERT模型的应用。然而，该模型在视觉-语言导航（Vision-and-Language Navigation, VLN）任务中的应用仍较为有限。其中一个主要原因是，BERT架构难以适配VLN中存在部分可观测马尔可夫决策过程（partially observable Markov decision process）的特性，后者要求具备依赖历史信息的注意力机制与决策能力。本文提出一种面向VLN任务的时间感知循环BERT模型。具体而言，我们在BERT模型中引入循环机制，以持续维护智能体的跨模态状态信息。在R2R和REVERIE两个基准数据集上的大量实验表明，所提模型能够替代更为复杂的编码器-解码器结构，实现当前最优的性能表现。此外，该方法具有良好的可扩展性，可推广至其他基于Transformer的架构，支持预训练，并能同时完成导航与指代表达（referring expression）任务。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供