3 个月前

多模态Transformer用于多模态机器翻译

摘要

多模态机器翻译（Multimodal Machine Translation, MMT）旨在引入其他模态的信息（通常为静态图像）以提升翻译质量。以往的研究提出了多种融合方法，但大多数方法未考虑多种模态之间的相对重要性。若对所有模态一视同仁，可能导致从次要模态中引入过多无关信息，从而影响翻译效果。本文在Transformer架构中引入多模态自注意力机制，以解决上述问题。所提出的方法基于文本内容学习图像表征，从而有效避免编码图像中与当前翻译任务无关的信息。实验结果与可视化分析表明，该模型能够有效利用视觉信息，在多种评价指标上显著优于以往方法及当前主流基线模型。

基准测试

基准	方法	指标
multimodal-machine-translation-on-multi30k	Multimodal Transformer	BLEU (EN-DE): 38.7 Meteor (EN-DE): 55.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供