6 个月前

统一多模态

Quanyu Long Mingxuan Wang Lei Li

摘要

文本与图像之间存在共享的语义信息。给定一种源语言的句子，借助视觉场景描述是否有助于其翻译成目标语言？现有的多模态神经机器翻译方法（MNMT）在训练时需要双语句子-图像三元组，推理时也需要源句子-图像的组合。本文提出 ImagiT，一种通过视觉想象实现的新型机器翻译方法。ImagiT 首先学习从源语言句子生成视觉表征，然后结合源句子与“想象出的视觉表征”来生成目标语言翻译结果。与以往方法不同，ImagiT 在推理阶段仅需源句子即可完成翻译。实验结果表明，ImagiT 通过视觉想象显著提升了翻译性能，明显优于仅依赖文本的神经机器翻译基线模型。进一步分析发现，ImagiT 中的想象过程在执行退化策略（degradation strategy）时，有助于补全缺失的信息。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

Quanyu Long Mingxuan Wang Lei Li

摘要

文本与图像之间存在共享的语义信息。给定一种源语言的句子，借助视觉场景描述是否有助于其翻译成目标语言？现有的多模态神经机器翻译方法（MNMT）在训练时需要双语句子-图像三元组，推理时也需要源句子-图像的组合。本文提出 ImagiT，一种通过视觉想象实现的新型机器翻译方法。ImagiT 首先学习从源语言句子生成视觉表征，然后结合源句子与“想象出的视觉表征”来生成目标语言翻译结果。与以往方法不同，ImagiT 在推理阶段仅需源句子即可完成翻译。实验结果表明，ImagiT 通过视觉想象显著提升了翻译性能，明显优于仅依赖文本的神经机器翻译基线模型。进一步分析发现，ImagiT 中的想象过程在执行退化策略（degradation strategy）时，有助于补全缺失的信息。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供