6 个月前

摘要

多模态机器翻译（Multimodal Machine Translation, MMT）主要通过引入视觉特征来增强纯文本翻译性能，近年来受到计算机视觉与自然语言处理领域广泛关注。当前大多数MMT模型依赖注意力机制、全局上下文建模或跨模态联合表示学习来利用视觉信息。然而，注意力机制在模态间缺乏充分的语义交互，而其他两种方法则提供固定的视觉上下文，难以适应生成翻译过程中所观测到的动态变化。为解决上述问题，本文提出一种新颖的动态上下文引导胶囊网络（Dynamic Context-guided Capsule Network, DCCN）用于多模态机器翻译。具体而言，在解码的每个时间步，我们首先采用传统的源-目标注意力机制生成特定时间步的源端上下文向量；随后，DCCN以该向量为输入，通过一种上下文引导的动态路由机制，迭代提取与当前语境相关的视觉特征。特别地，我们采用全局与局部区域视觉特征联合表示输入图像，并引入两个并行的DCCN模块，分别建模不同粒度下的视觉特征所对应的多模态上下文向量。最终，融合得到两个多模态上下文向量，并将其注入解码器以预测目标词。在英德、英法翻译任务的Multi30K数据集上的实验结果表明，所提DCCN方法显著优于现有方法。相关代码已开源，地址为：https://github.com/DeepLearnXMU/MM-DCCN。

源 PDF