3 个月前

用于多模态机器翻译的动态上下文引导胶囊网络

用于多模态机器翻译的动态上下文引导胶囊网络

摘要

多模态机器翻译(Multimodal Machine Translation, MMT)主要通过引入视觉特征来增强纯文本翻译性能,近年来受到计算机视觉与自然语言处理领域广泛关注。当前大多数MMT模型依赖注意力机制、全局上下文建模或跨模态联合表示学习来利用视觉信息。然而,注意力机制在模态间缺乏充分的语义交互,而其他两种方法则提供固定的视觉上下文,难以适应生成翻译过程中所观测到的动态变化。为解决上述问题,本文提出一种新颖的动态上下文引导胶囊网络(Dynamic Context-guided Capsule Network, DCCN)用于多模态机器翻译。具体而言,在解码的每个时间步,我们首先采用传统的源-目标注意力机制生成特定时间步的源端上下文向量;随后,DCCN以该向量为输入,通过一种上下文引导的动态路由机制,迭代提取与当前语境相关的视觉特征。特别地,我们采用全局与局部区域视觉特征联合表示输入图像,并引入两个并行的DCCN模块,分别建模不同粒度下的视觉特征所对应的多模态上下文向量。最终,融合得到两个多模态上下文向量,并将其注入解码器以预测目标词。在英德、英法翻译任务的Multi30K数据集上的实验结果表明,所提DCCN方法显著优于现有方法。相关代码已开源,地址为:https://github.com/DeepLearnXMU/MM-DCCN。

代码仓库

基准测试

基准方法指标
multimodal-machine-translation-on-multi30kDCCN
BLEU (EN-DE): 39.7
Meteor (EN-DE): 56.8
Meteor (EN-FR): 76.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于多模态机器翻译的动态上下文引导胶囊网络 | 论文 | HyperAI超神经