3 个月前

多模态Transformer用于多模态机器翻译

多模态Transformer用于多模态机器翻译

摘要

多模态机器翻译(Multimodal Machine Translation, MMT)旨在引入其他模态的信息(通常为静态图像)以提升翻译质量。以往的研究提出了多种融合方法,但大多数方法未考虑多种模态之间的相对重要性。若对所有模态一视同仁,可能导致从次要模态中引入过多无关信息,从而影响翻译效果。本文在Transformer架构中引入多模态自注意力机制,以解决上述问题。所提出的方法基于文本内容学习图像表征,从而有效避免编码图像中与当前翻译任务无关的信息。实验结果与可视化分析表明,该模型能够有效利用视觉信息,在多种评价指标上显著优于以往方法及当前主流基线模型。

基准测试

基准方法指标
multimodal-machine-translation-on-multi30kMultimodal Transformer
BLEU (EN-DE): 38.7
Meteor (EN-DE): 55.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态Transformer用于多模态机器翻译 | 论文 | HyperAI超神经