7 个月前

多模态表征

多任务学习

自然语言处理

Iacer Calixto; Miguel Rios; Wilker Aziz

摘要

在这项工作中，我们提出通过潜在变量模型来建模视觉特征和文本特征之间的交互，以实现多模态神经机器翻译（MMT）。该潜在变量可以被视为图像及其外语描述的多模态随机嵌入。它不仅用于目标语言解码器中，还用于预测图像特征。重要的是，我们的模型在训练过程中利用了视觉和文本输入，但在测试时并不需要图像的存在。我们展示了我们的潜在变量 MMT 模型显著优于强大的基线模型，包括多任务学习方法（Elliott 和 Kádár, 2017）和条件变分自编码器方法（Toyama 等, 2016）。最后，我们证明了以下几点改进：(i) 不仅基于图像特征进行条件化，还预测这些特征；(ii) 对潜在变量中编码的最小信息量施加约束；(iii) 使用额外的目标语言图像描述数据（即合成数据）进行训练。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

多任务学习

自然语言处理

Iacer Calixto; Miguel Rios; Wilker Aziz

摘要

在这项工作中，我们提出通过潜在变量模型来建模视觉特征和文本特征之间的交互，以实现多模态神经机器翻译（MMT）。该潜在变量可以被视为图像及其外语描述的多模态随机嵌入。它不仅用于目标语言解码器中，还用于预测图像特征。重要的是，我们的模型在训练过程中利用了视觉和文本输入，但在测试时并不需要图像的存在。我们展示了我们的潜在变量 MMT 模型显著优于强大的基线模型，包括多任务学习方法（Elliott 和 Kádár, 2017）和条件变分自编码器方法（Toyama 等, 2016）。最后，我们证明了以下几点改进：(i) 不仅基于图像特征进行条件化，还预测这些特征；(ii) 对潜在变量中编码的最小信息量施加约束；(iii) 使用额外的目标语言图像描述数据（即合成数据）进行训练。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供